![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
大規模な言語モデル(LLM)は近年大きな注目を集めていますが、内部メカニズムを理解することは依然として困難です。
Large Language Models (LLMs) have recently come into the spotlight, yet comprehending their internal mechanisms remains a challenge. When examining individual attention heads in Transformer models, researchers have identified specific functionalities in some heads. For instance, researchers have discovered induction heads in the Pythia model that predict tokens like ‘Potter’ following ‘Harry’ when the phrase appears in context, and ablation studies confirm these heads’ causal relationship to model behaviours. However, most attention heads distribute focus across diverse contexts without clear functionality.
大規模な言語モデル(LLM)が最近スポットライトを浴びていますが、内部メカニズムを理解することは依然として課題です。トランスモデルの個々の注意ヘッドを調べるとき、研究者はいくつかのヘッドの特定の機能を特定しました。たとえば、研究者は、フレーズが文脈に表示されるときに「ハリー」に続く「ポッター」のようなトークンを予測するピティアモデルの誘導ヘッドを発見し、アブレーション研究はこれらのヘッドの因果関係をモデルの行動に確認します。ただし、ほとんどの注意ヘッドは、明確な機能なしでさまざまなコンテキストに焦点を分配します。
The challenge lies in interpreting these complex attention patterns, as inter-head collaboration occurs rather than isolated functionality. This phenomenon is similar to how neurons in the brain can encode multiple features in a low-dimensional space, leading to feature superposition. The research proposes an overcomplete sparse attention architecture, termed Low-Rank Sparse Attention (Lorsa), to decompose attention superposition in Multi-Head Self-Attention (MHSA) mechanisms, taking inspiration from Sparse Autoencoders (SAEs) that extract overcomplete sets of sparse, linearly comprehensible features from neural networks.
課題は、孤立した機能ではなく頭部のコラボレーションが発生するため、これらの複雑な注意パターンを解釈することにあります。この現象は、脳内のニューロンが低次元空間で複数の特徴をエンコードする方法に似ており、機能の重ね合わせにつながります。この研究では、低ランクのまばらな注意(LORSA)と呼ばれる過剰なまばらな注意アーキテクチャを提案し、マルチヘッドの自己attention(MHSA)メカニズムの注意の重ね合わせを分解し、過度に微妙なセットを抽出するスパースオートエンコーダー(SAE)からインスピレーションを得て、ネオラルネットワークから直線的に理解できる機能を抽出します。
Attention superposition arises from the hypothesis that MHSA comprises multiple attention units in superposition, each attending between specific token pairs with interpretable read/write operations on the residual stream. This hypothesis suggests atomic attention units might be spread across multiple MHSA heads, while individual heads contain a few attention units.
注意の重ね合わせは、MHSAが重ね合わせで複数の注意ユニットを含むという仮説から生じます。それぞれが特定のトークンペア間で、残留ストリームで解釈可能な読み取り/書き込み操作を備えています。この仮説は、原子注意ユニットが複数のMHSAヘッドに広がっている可能性があることを示唆していますが、個々のヘッドにはいくつかの注意ユニットが含まれています。
Three key pieces of evidence support attention superposition: First, polysemantic heads respond to unrelated inputs, like successor heads that increment days, numbers, and exhibit acronym/copying behaviours simultaneously. Second, most attention heads lack clear interpretation patterns, with studies showing failed interpretation attempts for over 90% of GPT-2 heads. Third, direct observations show attention output features collectively contributed by multiple heads, with approximately 25% of learned attention units being spanned by multiple MHSA heads.
3つの重要な証拠が注意の重ね合わせをサポートしています。まず、ポリマンティックヘッドは、日数、数字、および同時に頭字語/コピー行動を示す後継者のヘッドなど、無関係な入力に反応します。第二に、ほとんどの注意ヘッドは明確な解釈パターンを欠いており、GPT-2ヘッドの90%以上の解釈の試みが失敗したことを示しています。第三に、直接的な観察結果は、複数のヘッドによって集合的に寄付された注意出力機能を示しており、学習した注意ユニットの約25%が複数のMHSAヘッドにまたがっています。
This lack of interpretability is a major hurdle in attributing model behavior to specific internal circuits. The structure of attention superposition may hold the key to understanding this biological motif, as it raises the question of why certain attention units, like induction heads, are implemented by single MHSA heads while others exist in superposition.
この解釈可能性の欠如は、モデルの動作を特定の内部回路に帰属させることにおける大きなハードルです。注意の構造は、この生物学的モチーフを理解するための鍵を握る可能性があります。なぜなら、誘導ヘッドのような特定の注意ユニットが単一のMHSAヘッドによって実装され、他の人が重ね合わせに存在する理由の問題を提起するからです。
To address this, Lorsa is trained to predict MHSA outputs by minimizing mean square error. It employs one-dimensional OV circuits that restrict read/write operations to specific residual stream features, aligning with the linear representation hypothesis. For Query and Key weights, Lorsa implements parameter sharing across every DLorsa QK head, maintaining parameter efficiency while preserving performance. This strategy makes Lorsa QK circuits similar to MHSA but with sparsity constraints on each OV dimension.
これに対処するために、Lorsaは平均平方根誤差を最小限に抑えることにより、MHSA出力を予測するように訓練されています。読み取り/書き込み操作を特定の残留ストリーム機能に制限する1次元OV回路を使用し、線形表現仮説に合わせます。クエリとキーウェイトの場合、LorsaはすべてのDlorsa QKヘッド全体でパラメーター共有を実装し、パフォーマンスを維持しながらパラメーター効率を維持します。この戦略により、LORSA QKサーキットはMHSAに似ていますが、各OV寸法にスパースの制約があります。
Lorsa employs orders of magnitude more heads than standard MH. For each position, Lorsa’s output aggregates only the top-K heads with the largest activation values, with the active head subset varying dynamically across token positions. This approach is similar to TopK-SAEs, selecting the most salient linear components. However, Lorsa’s head activations derive from attention patterns of previous tokens rather than simple linear encoders with ReLU.
Lorsaは、標準のMHよりも多くの頭の頭を桁違いに雇用しています。各位置について、Lorsaの出力は、最大のアクティベーション値を持つTop-Kヘッドのみを集約し、アクティブヘッドサブセットはトークン位置で動的に変化します。このアプローチは、最も顕著な線形コンポーネントを選択するTopk-saesに似ています。ただし、Lorsaのヘッドアクティブ化は、Reluを使用した単純な線形エンコーダーではなく、前のトークンの注意パターンに由来します。
Lorsa’s interpretability assessment uses several key metrics to understand individual head functionality. Top activations help identify patterns by examining the 16 highest-activating tokens for each Lorsa head across 100 million samples from held-out data. The z pattern analysis decomposes activations linearly into token-wise contributions from preceding positions, revealing which previous tokens contribute to current activations. This approach parallels direct feature attribution analysis used for attention Sparse Autoencoders, but with simpler attribution involving just one one-dimensional OV circuit and a single QK circuit.
Lorsaの解釈可能性評価では、いくつかの重要なメトリックを使用して、個々のヘッド機能を理解しています。上部のアクティベーションは、保有データから1億サンプルで1億ルーサヘッドの16の最高アクチブトークンを調べることにより、パターンを識別するのに役立ちます。 Zパターン分析は、活性化を前の位置からのトークンごとの寄与に直線的に分解し、以前のトークンが現在の活性化に寄与することを明らかにします。このアプローチは、注意スパースの自動エンコーダーに使用される直接的な特徴の帰属分析と類似していますが、1つの1次元OV回路と単一のQK回路のみを含むよりシンプルな属性を備えています。
A visualisation dashboard provides comprehensive information about each Lorsa head. For example, a “you”-specific induction head shows several important patterns: it primarily reads from features indicating the current token is “you”/”your” through its weight vector, strongly activates a “say you” feature that amplifies the logit of “you,” and increases prediction probabilities for various “you” tokens. The QK attention pattern computation involves current token features at the query position and previous token features where the current token is “you,” with the previous token often being words like “with,” “thank,” or “do.” Interestingly, this particular Lorsa head is almost equally distributed between two MHSA heads (5.0 and 5.7), demonstrating how Lorsa successfully disentangles attention units that exist across multiple standard attention heads.
視覚化ダッシュボードは、各ロルサヘッドに関する包括的な情報を提供します。たとえば、「you」固有の誘導ヘッドはいくつかの重要なパターンを示しています。主に、現在のトークンがその重量ベクトルを介して「あなた」であることを示す機能から読み取り、「you」のロジットを増幅し、さまざまな「you」トークンの予測確率を増やす「say you」機能を強くアクティブにします。 QK注意パターンの計算には、クエリ位置での現在のトークン機能と、現在のトークンが「you」である前のトークン機能が含まれます。前のトークンは、しばしば「with」、「ありがとう」、「do」などの単語です。興味深いことに、この特定のロルサヘッドは、2つのMHSAヘッド(5.0と5.7)の間にほぼ等しく分布しており、複数の標準的な注意ヘッドに存在する注意ユニットをLorsaがどのように解き放つかを示しています。
The research, conducted by the Shanghai Innovation Institute, OpenMOSS Team, and Fudan University, evaluated Lorsa on both Pythia-160M and Llama-3.1-8B models. Using an exploration interface and a visualization dashboard, they quantitatively assessed Lorsa’s interpretability through top activations and attribution patterns.
Shanghai Innovation Institute、OpenMoss Team、およびFudan Universityが実施したこの研究では、Pythia-160MとLlama-3.1-8Bモデルの両方でLorsaを評価しました。探索インターフェイスと視覚化ダッシュボードを使用して、トップのアクティベーションと属性パターンを通じてLorsaの解釈可能性を定量的に評価しました。
The results showed that Lorsa's monosemanticity compares favorably to Sparse Autoencoder features. In Pythia-160M, Lorsa successfully identified known attention mechanisms such as induction heads, name mover heads, successor heads, and attention sinks, which were previously discovered by researchers using techniques like activation patching
結果は、Lorsaの単腫性がスパースの自動エンコーダー機能と好意的に比較されることを示しました。 Pythia-160mでは、Lorsaは誘導ヘッド、名前のムーバーヘッド、後継者、および注意シンクなどの既知の注意メカニズムを正常に特定しました。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。
-
-
-
-
- YZi Labs (Formerly Binance Labs) Unveils 5 Pre-TGE Projects That Have a Chance to Be Listed on Binance
- 2025-06-08 04:35:12
- After going through a rebranding process, Binance Labs now comes with a new name, YZi Labs. Despite the change in identity, its role as one of the most influential investors in the Web3 ecosystem remains irreplaceable.
-
-
-
-
-