$116533.928400 USD

-2.08%

ethereum

$3625.487129 USD

-0.71%

xrp

$3.090958 USD

-3.61%

tether

$1.000499 USD

0.01%

bnb

$761.565506 USD

-2.75%

solana

$179.985209 USD

-5.92%

usd-coin

$0.999938 USD

0.00%

dogecoin

$0.226524 USD

-7.37%

tron

$0.312482 USD

0.65%

cardano

$0.800592 USD

-2.49%

hyperliquid

$41.584924 USD

-5.86%

stellar

$0.418925 USD

-3.17%

sui

$3.638506 USD

-3.44%

chainlink

$17.535026 USD

-4.41%

bitcoin-cash

$523.015814 USD

0.58%

Articles d’actualité sur les crypto-monnaies

RWKV-X: modèle de langue à long contexte à temps linéaire

May 06, 2025 at 02:09 am

LLMs built on Transformer architectures face significant scaling challenges due to their quadratic complexity in sequence length when processing long-context inputs. Linear Attention models, State Space Models like Mamba, Linear RNNs like DeltaNet, and RWKV solve this problem. However, these linear architectures struggle with long-context understanding. For instance, RWKV-7 (2.9B) achieves high accuracy on passkey retrieval up to 28K tokens but experiences rapid performance degradation beyond this point. Even with continual pretraining using 128K-length data, long-context limitations persist. This issue extends beyond RWKV to other architectures like Mamba, presenting a fundamental challenge for this class of models.

Les LLM construites sur les architectures de transformateurs sont confrontées à des défis de mise à l'échelle importants en raison de leur complexité quadratique dans la longueur de séquence lors du traitement des entrées de contexte long. Les modèles d'attention linéaires, les modèles d'espace d'état comme le mamba, les RNN linéaires comme Deltanet et RWKV résolvent ce problème. Cependant, ces architectures linéaires luttent avec la compréhension du contexte à long terme. Par exemple, RWKV-7 (2,9b) atteint une grande précision sur la récupération de la touche passée jusqu'à 28k jetons, mais subit une dégradation rapide des performances au-delà de ce point. Même avec une prélèvement continu en utilisant des données de longueur de 128k, les limitations de contexte à long terme persistent. Ce problème s'étend au-delà de la RWKV à d'autres architectures comme Mamba, présentant un défi fondamental pour cette classe de modèles.

Linear complexity language models are emerging as alternatives to transformer-based architectures, which suffer from quadratic computational demands when processing long sequences. The RWKV model series combines Transformer parallelizability during training with RNN-like recurrent state representation. RWKV has evolved through multiple iterations, starting with the foundational RWKV-4 and progressing to RWKV-5, RWKV-6, and RWKV-7. Hybrid language models, including Jamba, Zamba, and MiniMax, enhance hybrid designs uniquely. Additionally, Native Sparse Attention (NSA) organizes tokens into temporal blocks with three distinct attention paths: compressed coarse-grained tokens, selectively retained fine-grained tokens, and sliding windows for local contextual information. Other attention types include SeerAttention and Block Attention (MoBA).

Les modèles de langage de complexité linéaire émergent comme des alternatives aux architectures basées sur les transformateurs, qui souffrent de demandes de calcul quadratiques lors du traitement des séquences longues. La série de modèles RWKV combine la parallélisabilité du transformateur pendant la formation avec une représentation d'état récurrente de type RNN. RWKV a évolué à travers plusieurs itérations, en commençant par le RWKV-4 fondamental et en progressant vers RWKV-5, RWKV-6 et RWKV-7. Les modèles de langue hybride, y compris Jamba, Zamba et Minimax, améliorent les conceptions hybrides de manière unique. De plus, l'attention indigène clairsemée (NSA) organise les jetons en blocs temporels avec trois chemins d'attention distincts: des jetons à grains grossiers compressés, des jetons à grains fins sélectivement conservés et des fenêtres coulissantes pour des informations contextuelles locales. D'autres types d'attention incluent la seerattention et l'attention de l'attention (MOBA).

Researchers from Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University, and Qinghai University, Xining, have proposed a novel hybrid architecture called RWKV-X that combines RWKV’s efficiency for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches, RWKV-X achieves linear-time complexity during training and constant-time complexity during inference decoding. It shows near-perfect accuracy on the 64K passkey retrieval benchmark when pretrained on 64K-token sequences continuously. The model consistently outperforms previous RWKV-7 models on long-context benchmarks while maintaining strong performance on short-context tasks.

Des chercheurs du Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University et Qinghai University, Xining, ont proposé une nouvelle architecture hybride appelée RWKV-X qui combine l'efficacité de RWKV pour le contexte de la courte portée. Contrairement aux approches hybrides précédentes, RWKV-X atteint une complexité linéaire pendant l'entraînement et la complexité des temps constants pendant le décodage d'inférence. Il montre une précision presque parfaite sur la référence de récupération 64K Passkey lorsqu'il est pré-entraîné sur des séquences de 64k-token en continu. Le modèle surpasse constamment les modèles RWKV-7 précédents sur des références à long contexte tout en conservant de fortes performances sur des tâches de contexte court.

The authors present a two-stage training method for efficient preheating and fine-tuning of RWKV-X. In the first stage, they use short sequences (4096 tokens) to preheat the model quickly. Subsequently, they perform multi-stage pretraining with increasing sequence lengths to enable the model to process longer sequences gradually. This approach is inspired by LLaMA Pro's zero-initialization technique, where newly added parameters for expanded layers are initialized to zero. In contrast to LLaMA Pro's single-stage training, which may lead to instability, RWKV-X adopts a two-stage approach with a preheating stage to ensure stability.

Les auteurs présentent une méthode de formation en deux étapes pour un préchauffage et un réglage fin efficaces de RWKV-X. Dans la première étape, ils utilisent des séquences courtes (jetons 4096) pour préchauffer rapidement le modèle. Par la suite, ils effectuent une prélèvement en plusieurs étapes avec des longueurs de séquence croissantes pour permettre au modèle de traiter progressivement les séquences plus longues. Cette approche est inspirée de la technique de zéro-initialisation de Llama Pro, où les paramètres nouvellement ajoutés pour les couches élargies sont initialisés à zéro. Contrairement à la formation à un stade de Llama Pro, qui peut conduire à l'instabilité, RWKV-X adopte une approche en deux étapes avec une étape de préchauffage pour assurer la stabilité.

The Short-context evaluation reveals that RWKV-X maintains competitive performance across standard benchmarks. The smaller variant, RWKV-X (0.22B), achieves an average score of 51.0, comparable to RWKV-7’s 51.8. At a larger scale, RWKV-X (3.6B) reaches 71.9, closely matching RWKV-7 (2.9B, 72.8) and Qwen2.5-3B (71.4), while surpassing LLaMA3.2-3B (69.7). These results confirm RWKV-X’s effectiveness as a general-purpose LLM backbone without sacrificing performance on shorter contexts. Moreover, efficiency analysis demonstrates RWKV-X’s superior scaling characteristics for long sequences. At 128K tokens, RWKV-X achieves a 1.37 times speedup over Flash-Attention v3, with this advantage expanding as context length increases.

L'évaluation du contexte court révèle que RWKV-X maintient des performances concurrentielles à travers des références standard. La plus petite variante, RWKV-X (0,22b), obtient un score moyen de 51,0, comparable à 51,8 de RWKV-7. À plus grande échelle, RWKV-X (3,6b) atteint 71,9, correspondant étroitement à RWKV-7 (2,9b, 72,8) et Qwen2.5-3b (71,4), tout en dépassant LLAMA3.2-3B (69,7). Ces résultats confirment l'efficacité de RWKV-X en tant que squelette LLM à usage général sans sacrifier les performances dans des contextes plus courts. De plus, l'analyse de l'efficacité démontre les caractéristiques de mise à l'échelle supérieures de RWKV-X pour les séquences longues. À 128k jetons, RWKV-X réalise une accélération de 1,37 fois par rapport à la v3 de l'attention flash, cet avantage se développant à mesure que la longueur du contexte augmente.

In this paper, researchers introduced RWKV-X, which emerges as a hybrid language model that successfully combines RWKV’s efficiency for modeling short-range dependencies with a novel sparse attention mechanism designed specifically for long-range context modeling. While RWKV-X demonstrates strong performance and efficiency in long-context language modeling, several limitations remain. First, its sparse attention mechanism, which relies on top-k chunk selection, employs a heuristic approach that may overlook semantically relevant dependencies. Second, the current implementation shows sparse attention decoding running slower than vanilla RWKV, indicating that further engineering efforts are needed to optimize performance.

Dans cet article, les chercheurs ont introduit RWKV-X, qui apparaît comme un modèle de langue hybride qui combine avec succès l'efficacité de RWKV pour la modélisation des dépendances à courte portée avec un nouveau mécanisme d'attention clairsemé conçu spécifiquement pour la modélisation de contexte à longue portée. Alors que RWKV-X montre des performances et une efficacité solides dans la modélisation du langage à long contexte, plusieurs limitations demeurent. Premièrement, son mécanisme d'attention clairsemé, qui repose sur la sélection des morceaux supérieurs, utilise une approche heuristique qui peut ignorer les dépendances sémantiquement pertinentes. Deuxièmement, la mise en œuvre actuelle montre un décodage d'attention clairsemé en cours plus lentement que la vanille RWKV, ce qui indique que d'autres efforts d'ingénierie sont nécessaires pour optimiser les performances.

Check out the Paper. Also, don’t forget to follow us on Twitter.

Découvrez le papier. N'oubliez pas non plus de nous suivre sur Twitter.

Here’s a brief overview of what we’re building at Marktechpost:

Voici un bref aperçu de ce que nous construisons sur MarkTechPost:

ML News Community - r/machinelearningnews (92k+ members)

ML News Community - R / MachineLearningNews (92k + membres)

Newsletter– airesearchinsights.com/ (30k+ subscribers)

Newsletter - AireSearchInsights.com/ (30K + abonnés)

miniCON AI Events - minicon.marktechpost.com

Événements Minicon AI - minicon.marktechpost.com

AI Reports & Magazines - magazine.marktechpost.com

Rapports et magazines AI - magazine.marktechpost.com

AI Dev & Research News - marktechpost.

AI Dev & Researning News - Markeckspost.

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Jul 26, 2025

Plus