$117535.466428 USD

0.86%

ethereum

$3743.904248 USD

3.27%

xrp

$3.150293 USD

1.92%

tether

$1.000398 USD

-0.01%

bnb

$784.123542 USD

2.96%

solana

$186.703104 USD

3.73%

usd-coin

$1.000194 USD

0.03%

dogecoin

$0.237077 USD

4.66%

tron

$0.316954 USD

1.43%

cardano

$0.825919 USD

3.16%

hyperliquid

$44.329551 USD

6.60%

sui

$3.974508 USD

9.23%

stellar

$0.439026 USD

4.80%

chainlink

$18.426031 USD

5.08%

hedera

$0.267559 USD

12.80%

Nachrichtenartikel zu Kryptowährungen

RWKV-X: Linear-Time Long-Context-Sprachmodell

May 06, 2025 at 02:09 am

LLMs built on Transformer architectures face significant scaling challenges due to their quadratic complexity in sequence length when processing long-context inputs. Linear Attention models, State Space Models like Mamba, Linear RNNs like DeltaNet, and RWKV solve this problem. However, these linear architectures struggle with long-context understanding. For instance, RWKV-7 (2.9B) achieves high accuracy on passkey retrieval up to 28K tokens but experiences rapid performance degradation beyond this point. Even with continual pretraining using 128K-length data, long-context limitations persist. This issue extends beyond RWKV to other architectures like Mamba, presenting a fundamental challenge for this class of models.

LLMs, die auf Transformatorarchitekturen basieren, stehen aufgrund ihrer quadratischen Komplexität in der Sequenzlänge bei der Verarbeitung langer Kontexteingänge erhebliche Skalierungsherausforderungen. Lineare Aufmerksamkeitsmodelle, Zustandsraummodelle wie Mamba, lineare RNNs wie Deltanet und RWKV lösen dieses Problem. Diese linearen Architekturen kämpfen jedoch mit einem lang Kontextverständnis. Zum Beispiel erreicht RWKV-7 (2,9B) eine hohe Genauigkeit bei Passkey-Abrufen von bis zu 28.000 Token, erlebt jedoch eine rasche Leistungsverschlechterung über diesen Punkt hinaus. Selbst bei kontinuierlichen Vorbereitungen unter Verwendung von 128K-Längendaten bestehen die Einschränkungen von Langkontext. Dieses Problem erstreckt sich über RWKV über andere Architekturen wie Mamba hinaus und stellt eine grundlegende Herausforderung für diese Modelleklasse dar.

Linear complexity language models are emerging as alternatives to transformer-based architectures, which suffer from quadratic computational demands when processing long sequences. The RWKV model series combines Transformer parallelizability during training with RNN-like recurrent state representation. RWKV has evolved through multiple iterations, starting with the foundational RWKV-4 and progressing to RWKV-5, RWKV-6, and RWKV-7. Hybrid language models, including Jamba, Zamba, and MiniMax, enhance hybrid designs uniquely. Additionally, Native Sparse Attention (NSA) organizes tokens into temporal blocks with three distinct attention paths: compressed coarse-grained tokens, selectively retained fine-grained tokens, and sliding windows for local contextual information. Other attention types include SeerAttention and Block Attention (MoBA).

Lineare Komplexitätssprachmodelle werden als Alternativen zu Transformator-basierten Architekturen entwickelt, die bei der Verarbeitung langer Sequenzen unter quadratischen Rechenanforderungen leiden. Die RWKV-Modellreihe kombiniert Transformator-Parallelisierbarkeit während des Trainings mit RNN-ähnlicher rezidivierender Zustandsdarstellung. RWKV hat sich durch mehrere Iterationen entwickelt, beginnend mit dem grundlegenden RWKV-4 und dem Fortschreiten zu RWKV-5, RWKV-6 und RWKV-7. Hybride Sprachmodelle, einschließlich Jamba, Zamba und Minimax, verbessern die Hybridkonstruktionen eindeutig. Zusätzlich organisiert native Aufmerksamkeit (NSA) native Sparse Achtung (NSA) Token in zeitlichen Blöcken mit drei unterschiedlichen Aufmerksamkeitswegen: komprimierte grobkörnige Token, selektiv feinkörnige Token und Schieberfenster für lokale Kontextinformationen. Andere Aufmerksamkeitstypen sind Seherschaft und Block Achtung (MOBA).

Researchers from Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University, and Qinghai University, Xining, have proposed a novel hybrid architecture called RWKV-X that combines RWKV’s efficiency for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches, RWKV-X achieves linear-time complexity during training and constant-time complexity during inference decoding. It shows near-perfect accuracy on the 64K passkey retrieval benchmark when pretrained on 64K-token sequences continuously. The model consistently outperforms previous RWKV-7 models on long-context benchmarks while maintaining strong performance on short-context tasks.

Forscher des Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University und Qinghai University, Xining haben eine neuartige hybride Architektur namens RWKV-X vorgeschlagen, die RWKV-Effizienz für kurzfristige Modellierung mit einem sparsamen Aufmerksamkeitsmechanismus kombiniert. Im Gegensatz zu früheren Hybridansätzen erreicht RWKV-X während des Trainings und der Komplexität der konstanten Zeit während der Inferenzdecodierung eine lineare Zeitkomplexität. Es zeigt eine nahezu perfekte Genauigkeit auf dem 64K-Passkey-Retrieval-Benchmark, wenn sie kontinuierlich auf 64-km-Sequenzen vorab. Das Modell übertrifft die früheren RWKV-7-Modelle konsequent über langkontextbezogene Benchmarks und hält gleichzeitig eine starke Leistung bei Kurzkontextaufgaben bei.

The authors present a two-stage training method for efficient preheating and fine-tuning of RWKV-X. In the first stage, they use short sequences (4096 tokens) to preheat the model quickly. Subsequently, they perform multi-stage pretraining with increasing sequence lengths to enable the model to process longer sequences gradually. This approach is inspired by LLaMA Pro's zero-initialization technique, where newly added parameters for expanded layers are initialized to zero. In contrast to LLaMA Pro's single-stage training, which may lead to instability, RWKV-X adopts a two-stage approach with a preheating stage to ensure stability.

Die Autoren präsentieren eine zweistufige Trainingsmethode zur effizienten Vorheizen und Feinabstimmung von RWKV-X. In der ersten Stufe verwenden sie kurze Sequenzen (4096 Token), um das Modell schnell vorzuheizen. Anschließend führen sie mehrstufige Vorverhandlungen mit zunehmenden Sequenzlängen durch, damit das Modell längere Sequenzen allmählich verarbeiten kann. Dieser Ansatz ist inspiriert von der Nullinitialisierung von Llama Pro, bei der neu hinzugefügte Parameter für erweiterte Schichten auf Null initialisiert werden. Im Gegensatz zum einstufigen Training von LLAMA Pro, was zu Instabilität führen kann, verfolgt RWKV-X einen zweistufigen Ansatz mit einer Vorheizphase, um die Stabilität zu gewährleisten.

The Short-context evaluation reveals that RWKV-X maintains competitive performance across standard benchmarks. The smaller variant, RWKV-X (0.22B), achieves an average score of 51.0, comparable to RWKV-7’s 51.8. At a larger scale, RWKV-X (3.6B) reaches 71.9, closely matching RWKV-7 (2.9B, 72.8) and Qwen2.5-3B (71.4), while surpassing LLaMA3.2-3B (69.7). These results confirm RWKV-X’s effectiveness as a general-purpose LLM backbone without sacrificing performance on shorter contexts. Moreover, efficiency analysis demonstrates RWKV-X’s superior scaling characteristics for long sequences. At 128K tokens, RWKV-X achieves a 1.37 times speedup over Flash-Attention v3, with this advantage expanding as context length increases.

Die Kurzkontextbewertung zeigt, dass RWKV-X die Wettbewerbsleistung für Standardbenchmarks beibehält. Die kleinere Variante RWKV-X (0,22B) erzielt eine durchschnittliche Punktzahl von 51,0, die mit 51,8 von RWKV-7 vergleichbar ist. In größerem Maßstab erreicht RWKV-X (3,6B) 71,9 und entspricht eng mit RWKV-7 (2,9B, 72,8) und QWEN2.5-3B (71,4), während LLAMA3.2-3B (69,7) übertrifft. Diese Ergebnisse bestätigen die Wirksamkeit von RWKV-X als allgemeines LLM-Rückgrat, ohne die Leistung in kürzeren Kontexten zu beeinträchtigen. Darüber hinaus zeigt die Effizienzanalyse die überlegene Skalierungseigenschaften von RWKV-X für lange Sequenzen. Bei 128K-Token erzielt RWKV-X eine 1,37-fache Beschleunigung gegenüber der Flash-Asso-V3, wobei dieser Vorteil mit zunehmender Kontextlänge erweitert wird.

In this paper, researchers introduced RWKV-X, which emerges as a hybrid language model that successfully combines RWKV’s efficiency for modeling short-range dependencies with a novel sparse attention mechanism designed specifically for long-range context modeling. While RWKV-X demonstrates strong performance and efficiency in long-context language modeling, several limitations remain. First, its sparse attention mechanism, which relies on top-k chunk selection, employs a heuristic approach that may overlook semantically relevant dependencies. Second, the current implementation shows sparse attention decoding running slower than vanilla RWKV, indicating that further engineering efforts are needed to optimize performance.

In diesem Artikel stellten Forscher RWKV-X ein, das als hybrides Sprachmodell entsteht, das die Effizienz von RWKV erfolgreich für die Modellierung von Abhängigkeiten von Kurzstrecken mit einem neuartigen Sparse-Aufmerksamkeitsmechanismus kombiniert, der speziell für die Modellierung von Langstreckenkontext entwickelt wurde. Während RWKV-X eine starke Leistung und Effizienz bei der modellierten Langzeitsprachenmodellierung zeigt, bleiben mehrere Einschränkungen bestehen. Erstens verwendet sein spärlicher Aufmerksamkeitsmechanismus, der auf der Auswahl der Top-K-Chunk beruht, einen heuristischen Ansatz, der semantisch relevante Abhängigkeiten übersehen kann. Zweitens zeigt die aktuelle Implementierung eine spärliche Aufmerksamkeitsdecodierung langsamer als Vanille -RWKV, was darauf hinweist, dass weitere technische Bemühungen erforderlich sind, um die Leistung zu optimieren.

Check out the Paper. Also, don’t forget to follow us on Twitter.

Schauen Sie sich das Papier an. Vergessen Sie auch nicht, uns auf Twitter zu folgen.

Here’s a brief overview of what we’re building at Marktechpost:

Hier ist ein kurzer Überblick über das, was wir bei MarktechPost aufbauen:

ML News Community - r/machinelearningnews (92k+ members)

ML News Community - R/MachinelearningNews (92K+ Mitglieder)

Newsletter– airesearchinsights.com/ (30k+ subscribers)

Newsletter - AiresearchInsights.com/ (30K+ Abonnenten)

miniCON AI Events - minicon.marktechpost.com

Minicon AI Events - minicon.marktechpost.com

AI Reports & Magazines - magazine.marktechpost.com

AI Reports & Magazine - Magazine.marktechpost.com

AI Dev & Research News - marktechpost.

AI Dev & Forearning News - MarkeckPost.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Jul 26, 2025

Mehr