![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Großsprachenmodelle (LLMs) haben in den letzten Jahren erhebliche Aufmerksamkeit auf sich gezogen, aber das Verständnis ihrer internen Mechanismen bleibt eine Herausforderung.
Large Language Models (LLMs) have recently come into the spotlight, yet comprehending their internal mechanisms remains a challenge. When examining individual attention heads in Transformer models, researchers have identified specific functionalities in some heads. For instance, researchers have discovered induction heads in the Pythia model that predict tokens like ‘Potter’ following ‘Harry’ when the phrase appears in context, and ablation studies confirm these heads’ causal relationship to model behaviours. However, most attention heads distribute focus across diverse contexts without clear functionality.
Große Sprachmodelle (LLMs) sind in letzter Zeit ins Rampenlicht gekommen, aber das Verständnis der internen Mechanismen bleibt eine Herausforderung. Bei der Untersuchung der individuellen Aufmerksamkeitsköpfe in Transformatormodellen haben Forscher in einigen Köpfen spezifische Funktionen identifiziert. Zum Beispiel haben Forscher Induktionsköpfe im Pythia -Modell entdeckt, die Token wie 'Potter' folgen, die 'Harry' folgen, wenn der Ausdruck im Kontext erscheint, und Ablationsstudien bestätigen diese kausalen Beziehung dieser Köpfe zu Modellverhalten. Die meisten Aufmerksamkeitsköpfe verteilen jedoch den Fokus über verschiedene Kontexte ohne klare Funktionalität hinweg.
The challenge lies in interpreting these complex attention patterns, as inter-head collaboration occurs rather than isolated functionality. This phenomenon is similar to how neurons in the brain can encode multiple features in a low-dimensional space, leading to feature superposition. The research proposes an overcomplete sparse attention architecture, termed Low-Rank Sparse Attention (Lorsa), to decompose attention superposition in Multi-Head Self-Attention (MHSA) mechanisms, taking inspiration from Sparse Autoencoders (SAEs) that extract overcomplete sets of sparse, linearly comprehensible features from neural networks.
Die Herausforderung besteht darin, diese komplexen Aufmerksamkeitsmuster zu interpretieren, da die Zusammenarbeit zwischen Kopf und nicht isolierte Funktionalität auftritt. Dieses Phänomen ähnelt der Art und Weise, wie Neuronen im Gehirn mehrere Merkmale in einem niedrigdimensionalen Raum codieren können, was zu einer Überlagerung von Funktionen führt. Die Forschung schlägt eine überkonzertes spärliche Aufmerksamkeitsarchitektur vor, die als LORSA (Sparse Achtung mit niedriger Rang als MHSA) -Mechanismen (Multi-Head-Selbstbekämpfung) bezeichnet wird, und lassen sich von spärlichen Autoencodern (SAEs) inspirieren, die Überkonformen von sparsamen, linear umfassenden Merkmalen aus Neuralnetzwerken extrahieren.
Attention superposition arises from the hypothesis that MHSA comprises multiple attention units in superposition, each attending between specific token pairs with interpretable read/write operations on the residual stream. This hypothesis suggests atomic attention units might be spread across multiple MHSA heads, while individual heads contain a few attention units.
Die Aufmerksamkeitsüberlagerung ergibt sich aus der Hypothese, dass MHSA mehrere Aufmerksamkeitseinheiten in der Überlagerung umfasst, die jeweils zwischen spezifischen Tokenpaaren mit interpretierbaren Lese-/Schreibvorgängen auf dem Reststrom anwesend sind. Diese Hypothese legt nahe, dass Atom -Aufmerksamkeitseinheiten auf mehrere MHSA -Köpfe verteilt werden könnten, während einzelne Köpfe einige Aufmerksamkeitseinheiten enthalten.
Three key pieces of evidence support attention superposition: First, polysemantic heads respond to unrelated inputs, like successor heads that increment days, numbers, and exhibit acronym/copying behaviours simultaneously. Second, most attention heads lack clear interpretation patterns, with studies showing failed interpretation attempts for over 90% of GPT-2 heads. Third, direct observations show attention output features collectively contributed by multiple heads, with approximately 25% of learned attention units being spanned by multiple MHSA heads.
Drei wichtige Beweisstücke unterstützen die Aufmerksamkeitsüberlagerung: Erstens reagieren polysemantische Köpfe auf nicht verwandte Eingänge, wie Nachfolgerköpfe, die Tage, Zahlen und Akronym-/Kopierverhalten gleichzeitig aufweisen. Zweitens fehlen die meisten Aufmerksamkeitsköpfe klare Interpretationsmuster, wobei Studien, die fehlgeschlagene Interpretationsversuche für über 90% der GPT-2-Köpfe zeigen. Drittens zeigen direkte Beobachtungen, die die Aufmerksamkeitsausgangsmerkmale, die gemeinsam von mehreren Köpfen beigetragen haben, auf die Aufmerksamkeitsfunktionen gezeigt werden, wobei ungefähr 25% der erlernten Aufmerksamkeitseinheiten von mehreren MHSA -Köpfen überspannt werden.
This lack of interpretability is a major hurdle in attributing model behavior to specific internal circuits. The structure of attention superposition may hold the key to understanding this biological motif, as it raises the question of why certain attention units, like induction heads, are implemented by single MHSA heads while others exist in superposition.
Diese mangelnde Interpretierbarkeit ist eine wichtige Hürde bei der Zuordnung des Modellverhaltens auf bestimmte interne Schaltungen. Die Struktur der Aufmerksamkeitsüberlagerung kann den Schlüssel zum Verständnis dieses biologischen Motivs halten, da sie die Frage aufwirft, warum bestimmte Aufmerksamkeitseinheiten wie Induktionsköpfe von einzelnen MHSA -Köpfen implementiert werden, während andere in der Überlagerung existieren.
To address this, Lorsa is trained to predict MHSA outputs by minimizing mean square error. It employs one-dimensional OV circuits that restrict read/write operations to specific residual stream features, aligning with the linear representation hypothesis. For Query and Key weights, Lorsa implements parameter sharing across every DLorsa QK head, maintaining parameter efficiency while preserving performance. This strategy makes Lorsa QK circuits similar to MHSA but with sparsity constraints on each OV dimension.
Um dies anzugehen, wird Lorsa geschult, um MHSA -Ausgänge durch Minimierung des mittleren quadratischen Fehlers vorherzusagen. Es verwendet eindimensionale OV-Schaltungen, die Lese-/Schreibvorgänge auf bestimmte Reststromfunktionen beschränken und mit der linearen Repräsentationshypothese ausgerichtet sind. Für Abfragen und wichtige Gewichte implementiert LORSA die Parameterfreigabe über jeden DLORSA -QK -Kopf, wodurch die Effizienz der Parameter beibehält und gleichzeitig die Leistung erhalten bleibt. Diese Strategie macht Lorsa QK -Schaltkreise ähnlich wie MHSA, jedoch mit Sparsity -Einschränkungen für jede OV -Dimension.
Lorsa employs orders of magnitude more heads than standard MH. For each position, Lorsa’s output aggregates only the top-K heads with the largest activation values, with the active head subset varying dynamically across token positions. This approach is similar to TopK-SAEs, selecting the most salient linear components. However, Lorsa’s head activations derive from attention patterns of previous tokens rather than simple linear encoders with ReLU.
Lorsa verwendet Größenordnungen mehr Köpfe als Standard MH. Für jede Position aggregiert LORSA nur die Top-K-Köpfe mit den größten Aktivierungswerten, wobei die aktive Kopfuntergruppe in Bezug auf Token-Positionen dynamisch variiert. Dieser Ansatz ähnelt Topk-saes und wählt die wichtigsten linearen Komponenten aus. Loras Kopfaktivierungen stammen jedoch aus Aufmerksamkeitsmustern früherer Token und nicht aus einfachen linearen Encodern mit Relu.
Lorsa’s interpretability assessment uses several key metrics to understand individual head functionality. Top activations help identify patterns by examining the 16 highest-activating tokens for each Lorsa head across 100 million samples from held-out data. The z pattern analysis decomposes activations linearly into token-wise contributions from preceding positions, revealing which previous tokens contribute to current activations. This approach parallels direct feature attribution analysis used for attention Sparse Autoencoders, but with simpler attribution involving just one one-dimensional OV circuit and a single QK circuit.
Die Interpretierbarkeitsbewertung von LORSA verwendet mehrere wichtige Metriken, um die individuelle Kopffunktionalität zu verstehen. Top-Aktivierungen helfen dabei, Muster zu identifizieren, indem die 16 am besten aktivierenden Token für jeden Lorsa-Kopf über 100 Millionen Proben aus gehaltenen Daten untersucht werden. Die Z-Musteranalyse zersetzt Aktivierungen linear in token-weise Beiträge der vorhergehenden Positionen und zeigen, welche vorherigen Token zu aktuellen Aktivierungen beitragen. Dieser Ansatz entspricht der direkten Merkmalszuordnungsanalyse, die für Aufmerksamkeitsdarsteller-Autoencoder verwendet wird, jedoch mit einer einfacheren Zuordnung nur einen eindimensionalen OV-Schaltkreis und einen einzelnen QK-Schaltkreis.
A visualisation dashboard provides comprehensive information about each Lorsa head. For example, a “you”-specific induction head shows several important patterns: it primarily reads from features indicating the current token is “you”/”your” through its weight vector, strongly activates a “say you” feature that amplifies the logit of “you,” and increases prediction probabilities for various “you” tokens. The QK attention pattern computation involves current token features at the query position and previous token features where the current token is “you,” with the previous token often being words like “with,” “thank,” or “do.” Interestingly, this particular Lorsa head is almost equally distributed between two MHSA heads (5.0 and 5.7), demonstrating how Lorsa successfully disentangles attention units that exist across multiple standard attention heads.
Ein Visualisierungs -Dashboard bietet umfassende Informationen zu jedem Lorsa -Kopf. Zum Beispiel zeigt ein „Sie“ -Spezifischer Induktionskopf mehrere wichtige Muster: Es liest sich hauptsächlich aus Merkmalen, die angeben, dass das aktuelle Token „Sie“/„Ihr“ durch seinen Gewichtsvektor ist, eine „Say You“ -Funktion, die das Logit von „Sie“ verstärkt, stark aktiviert und die Vorhersagewahrscheinlichkeiten für verschiedene „Sie“ erhöht. Die QK -Aufmerksamkeitsmusterberechnung beinhaltet aktuelle Token -Funktionen in der Abfrageposition und vorherige Token -Merkmale, bei denen das aktuelle Token „Sie“ ist, wobei der vorherige Token häufig Wörter wie „mit“, „Danke“ oder „Do“ sind. Interessanterweise ist dieser spezielle Lorsa -Kopf fast gleichermaßen zwischen zwei MHSA -Köpfen (5,0 und 5,7) verteilt, was zeigt, wie Lorsa Aufmerksamkeitseinheiten, die über mehrere Standard -Aufmerksamkeitsköpfe bestehen, erfolgreich entwirrt.
The research, conducted by the Shanghai Innovation Institute, OpenMOSS Team, and Fudan University, evaluated Lorsa on both Pythia-160M and Llama-3.1-8B models. Using an exploration interface and a visualization dashboard, they quantitatively assessed Lorsa’s interpretability through top activations and attribution patterns.
Die von dem Shanghai Innovation Institute, OpenMoss Team und der Fudan University durchgeführten Forschungen bewerteten Lorsa sowohl auf Pythia-160m als auch auf Lama-3,1-8B-Modellen. Unter Verwendung einer Explorationsschnittstelle und eines Visualisierungs -Dashboards bewertete sie die Interpretierbarkeit von LORSA durch obere Aktivierungen und Attributionsmuster quantitativ.
The results showed that Lorsa's monosemanticity compares favorably to Sparse Autoencoder features. In Pythia-160M, Lorsa successfully identified known attention mechanisms such as induction heads, name mover heads, successor heads, and attention sinks, which were previously discovered by researchers using techniques like activation patching
Die Ergebnisse zeigten, dass die Monosemantik von Lorsa positiv mit spärlichen Autoencoder -Merkmalen vergleichbar ist. In Pythia-160m identifizierte Lorsa bekannte Aufmerksamkeitsmechanismen wie Induktionsköpfe, Namens-Mover-Köpfe, Nachfolgerköpfe und Aufmerksamkeitssenken, die zuvor von Forschern mit Techniken wie Aktivierungspatching entdeckt wurden
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Litecoin (LTC) Surges by Almost 12% After the U.S. Securities and Exchange Commission (SEC) Announced a Delay in Its Decision on a Proposed Spot Litecoin ETF
- Jun 08, 2025 at 01:35 am
- Despite the delay, the market responded positively. LTC traded around $92.05, marking an 12% gain in the past 24 hours.
-
-
-
-
-
-
-
- XRPL Validator Tierarzt hat Bedenken hinsichtlich der anhaltenden Komplexität von Anwendungen ausgelöst, die auf dem XRP -Ledger (XRPL) basieren.
- Jun 08, 2025 at 01:15 am
- Eingabe: XRPL Validator Tierarzt hat Bedenken hinsichtlich der anhaltenden Komplexität von Anwendungen ausgelöst, die auf dem XRP -Ledger (XRPL) basieren, was auf breitere Probleme hinweist, die sich auf die gesamte Kryptowährungsbranche auswirken.