![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
変圧器アーキテクチャ上に構築されたLLMは、長いコンテキスト入力を処理する際のシーケンス長の2次複雑さのために、重大なスケーリングの課題に直面しています。
LLMs built on Transformer architectures face significant scaling challenges due to their quadratic complexity in sequence length when processing long-context inputs. Linear Attention models, State Space Models like Mamba, Linear RNNs like DeltaNet, and RWKV solve this problem. However, these linear architectures struggle with long-context understanding. For instance, RWKV-7 (2.9B) achieves high accuracy on passkey retrieval up to 28K tokens but experiences rapid performance degradation beyond this point. Even with continual pretraining using 128K-length data, long-context limitations persist. This issue extends beyond RWKV to other architectures like Mamba, presenting a fundamental challenge for this class of models.
変圧器アーキテクチャ上に構築されたLLMは、長いコンテキスト入力を処理する際のシーケンス長の2次複雑さのために、重大なスケーリングの課題に直面しています。線形注意モデル、Mambaなどの状態空間モデル、Deltanetのような線形RNN、RWKVはこの問題を解決します。ただし、これらの線形アーキテクチャは、長いコンテストの理解に苦労しています。たとえば、RWKV-7(2.9b)は、最大28kトークンまでのPassKey検索で高い精度を達成しますが、この点を超えて急速なパフォーマンスの低下を経験します。 128kの長さのデータを使用して継続的な事前販売があっても、長いコンテキストの制限は持続します。この問題は、RWKVを超えてMambaのような他のアーキテクチャにまで及び、このクラスのモデルに根本的な課題を提示しています。
Linear complexity language models are emerging as alternatives to transformer-based architectures, which suffer from quadratic computational demands when processing long sequences. The RWKV model series combines Transformer parallelizability during training with RNN-like recurrent state representation. RWKV has evolved through multiple iterations, starting with the foundational RWKV-4 and progressing to RWKV-5, RWKV-6, and RWKV-7. Hybrid language models, including Jamba, Zamba, and MiniMax, enhance hybrid designs uniquely. Additionally, Native Sparse Attention (NSA) organizes tokens into temporal blocks with three distinct attention paths: compressed coarse-grained tokens, selectively retained fine-grained tokens, and sliding windows for local contextual information. Other attention types include SeerAttention and Block Attention (MoBA).
線形複雑さの言語モデルは、長いシーケンスを処理する際に二次計算需要に悩まされる変圧器ベースのアーキテクチャの代替品として浮上しています。 RWKVモデルシリーズは、トレーニング中のトランスの並列化性とRNNのような再発状態表現を組み合わせています。 RWKVは、基礎RWKV-4から始まり、RWKV-5、RWKV-6、およびRWKV-7に進むと、複数の反復を通じて進化しました。 Jamba、Zamba、Minimaxを含むハイブリッド言語モデルは、ハイブリッド設計を独自に強化します。さらに、ネイティブスパースの注意(NSA)は、3つの異なる注意パスを持つトークンを時間的ブロックに整理します:圧縮された粗粒子トークン、選択的に保持された細かいトークン、およびローカルコンテキスト情報のスライドウィンドウ。その他の注意タイプには、SeerattentionとBlock Atterness(MOBA)が含まれます。
Researchers from Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University, and Qinghai University, Xining, have proposed a novel hybrid architecture called RWKV-X that combines RWKV’s efficiency for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches, RWKV-X achieves linear-time complexity during training and constant-time complexity during inference decoding. It shows near-perfect accuracy on the 64K passkey retrieval benchmark when pretrained on 64K-token sequences continuously. The model consistently outperforms previous RWKV-7 models on long-context benchmarks while maintaining strong performance on short-context tasks.
人工知能とデジタル経済の広州研究所(SZ)、深セン、ホハイ大学、南京、深セン大学、青島大学の研究者は、Xiningが、RWKVの効率を組み合わせたRWKV-Xと呼ばれる新しいハイブリッドアーキテクチャを提案しました。以前のハイブリッドアプローチとは異なり、RWKV-Xは、トレーニング中に線形時間の複雑さを実現し、推論デコード中に一定の時間の複雑さを実現します。 64Kトークンシーケンスで継続的に前払いした場合、64K PassKey検索ベンチマークでほぼ完璧な精度を示します。このモデルは、ショートテキストタスクで強力なパフォーマンスを維持しながら、長いコンテキストベンチマーク上の以前のRWKV-7モデルを常に上回っています。
The authors present a two-stage training method for efficient preheating and fine-tuning of RWKV-X. In the first stage, they use short sequences (4096 tokens) to preheat the model quickly. Subsequently, they perform multi-stage pretraining with increasing sequence lengths to enable the model to process longer sequences gradually. This approach is inspired by LLaMA Pro's zero-initialization technique, where newly added parameters for expanded layers are initialized to zero. In contrast to LLaMA Pro's single-stage training, which may lead to instability, RWKV-X adopts a two-stage approach with a preheating stage to ensure stability.
著者は、RWKV-Xの効率的な予熱と微調整のための2段階のトレーニング方法を提示します。最初の段階では、短いシーケンス(4096トークン)を使用して、モデルを迅速に予熱します。その後、シーケンスの長さが増加してマルチステージの前orainsを実行して、モデルがより長いシーケンスを徐々に処理できるようにします。このアプローチは、Llama Proのゼロイナイト化技術に触発されており、拡張されたレイヤー用の新しく追加されたパラメーターがゼロに初期化されています。不安定性につながる可能性のあるLlama Proのシングルステージトレーニングとは対照的に、RWKV-Xは、安定性を確保するために予熱段階で2段階のアプローチを採用しています。
The Short-context evaluation reveals that RWKV-X maintains competitive performance across standard benchmarks. The smaller variant, RWKV-X (0.22B), achieves an average score of 51.0, comparable to RWKV-7’s 51.8. At a larger scale, RWKV-X (3.6B) reaches 71.9, closely matching RWKV-7 (2.9B, 72.8) and Qwen2.5-3B (71.4), while surpassing LLaMA3.2-3B (69.7). These results confirm RWKV-X’s effectiveness as a general-purpose LLM backbone without sacrificing performance on shorter contexts. Moreover, efficiency analysis demonstrates RWKV-X’s superior scaling characteristics for long sequences. At 128K tokens, RWKV-X achieves a 1.37 times speedup over Flash-Attention v3, with this advantage expanding as context length increases.
ショートコンテキスト評価は、RWKV-Xが標準ベンチマーク全体で競争力のあるパフォーマンスを維持していることを明らかにしています。小型のバリアントであるRWKV-X(0.22b)は、RWKV-7の51.8に匹敵する平均スコア51.0を達成します。大規模に、RWKV-X(3.6b)は71.9に達し、rwkv-7(2.9b、72.8)およびqwen2.5-3b(71.4)に密接に一致し、llama3.2-3b(69.7)を上回ります。これらの結果は、より短いコンテキストでパフォーマンスを犠牲にすることなく、汎用LLMバックボーンとしてのRWKV-Xの有効性を確認します。さらに、効率分析は、長いシーケンスのRWKV-Xの優れたスケーリング特性を示しています。 128Kトークンで、RWKV-XはフラッシュアテンションV3よりも1.37倍のスピードアップを実現し、この利点はコンテキストの長さが増加するにつれて拡大します。
In this paper, researchers introduced RWKV-X, which emerges as a hybrid language model that successfully combines RWKV’s efficiency for modeling short-range dependencies with a novel sparse attention mechanism designed specifically for long-range context modeling. While RWKV-X demonstrates strong performance and efficiency in long-context language modeling, several limitations remain. First, its sparse attention mechanism, which relies on top-k chunk selection, employs a heuristic approach that may overlook semantically relevant dependencies. Second, the current implementation shows sparse attention decoding running slower than vanilla RWKV, indicating that further engineering efforts are needed to optimize performance.
この論文では、研究者はRWKV-Xを導入しました。これは、短距離依存関係をモデリングするためのRWKVの効率を組み合わせて、長距離コンテキストモデリング用に特異的に設計された新しいまばらな注意メカニズムを組み合わせたハイブリッド言語モデルとして登場します。 RWKV-Xは、長いコンテキスト言語モデリングの強力なパフォーマンスと効率性を示していますが、いくつかの制限が残っています。第一に、トップKチャンクの選択に依存するそのまばらな注意メカニズムは、意味的に関連する依存関係を見落とす可能性のあるヒューリスティックなアプローチを採用しています。第二に、現在の実装では、バニラRWKVよりも遅い走行がまばらな注意デコードを示していることを示しています。これは、パフォーマンスを最適化するためにさらなるエンジニアリングの取り組みが必要であることを示しています。
Check out the Paper. Also, don’t forget to follow us on Twitter.
論文をチェックしてください。また、Twitterでフォローすることを忘れないでください。
Here’s a brief overview of what we’re building at Marktechpost:
MarkTechPostで構築されているものの簡単な概要を次に示します。
ML News Community - r/machinelearningnews (92k+ members)
ML Newsコミュニティ-R/MachinElearningNews(92K+メンバー)
Newsletter– airesearchinsights.com/ (30k+ subscribers)
ニュースレター–AiresearchInsights.com/(30K+サブスクライバー)
miniCON AI Events - minicon.marktechpost.com
ミニコンAIイベント-Minicon.MarkTechPost.com
AI Reports & Magazines - magazine.marktechpost.com
AIレポートと雑誌-Magazine.MarkTechPost.com
AI Dev & Research News - marktechpost.
AI Dev&Researning News -Markeckspost。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。