Capitalisation boursière: $3.3632T 3.490%
Volume(24h): $127.9924B 31.210%
  • Capitalisation boursière: $3.3632T 3.490%
  • Volume(24h): $127.9924B 31.210%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $3.3632T 3.490%
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
Top nouvelles
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
bitcoin
bitcoin

$108767.155812 USD

2.68%

ethereum
ethereum

$2568.199982 USD

6.21%

tether
tether

$1.000364 USD

0.02%

xrp
xrp

$2.241695 USD

3.03%

bnb
bnb

$659.359317 USD

1.62%

solana
solana

$152.708476 USD

2.89%

usd-coin
usd-coin

$0.999967 USD

0.00%

tron
tron

$0.285364 USD

1.92%

dogecoin
dogecoin

$0.168879 USD

6.54%

cardano
cardano

$0.585956 USD

7.45%

hyperliquid
hyperliquid

$39.872800 USD

7.29%

sui
sui

$2.897865 USD

7.64%

bitcoin-cash
bitcoin-cash

$501.786353 USD

0.20%

chainlink
chainlink

$13.495538 USD

4.81%

unus-sed-leo
unus-sed-leo

$8.995649 USD

0.54%

Articles d’actualité sur les crypto-monnaies

Décodage spéculatif guidé par récompense: un nouveau paradigme pour une inférence LLM efficace

Feb 15, 2025 at 03:44 am

Ces dernières années, la mise à l'échelle rapide des grands modèles de langage (LLMS) a conduit à des améliorations extraordinaires des capacités de compréhension et de raisonnement du langage naturel.

Décodage spéculatif guidé par récompense: un nouveau paradigme pour une inférence LLM efficace

Salesforce AI Research has introduced Reward-Guided Speculative Decoding (RSD), a novel framework for efficient inference in large language models (LLMs). The approach aims to strike a balance between speed and performance, addressing the computational challenges faced by LLMs during sequential token generation.

Salesforce AI Research a introduit le décodage spéculatif guidé par les récompenses (RSD), un nouveau cadre pour une inférence efficace dans les modèles de grande langue (LLM). L'approche vise à trouver un équilibre entre la vitesse et les performances, résolvant les défis de calcul auxquels sont confrontés les LLM pendant la génération de jetons séquentiels.

At a Glance

En un coup d'œil

RSD combines a fast, lightweight “draft” model with a more robust “target” model.

RSD combine un modèle de «brouillon» rapide et léger avec un modèle «cible» plus robuste.

A process reward model (PRM) evaluates draft model outputs in real time.

Un modèle de récompense de processus (PRM) évalue le projet de sorties du modèle en temps réel.

RSD introduces a controlled bias to prioritize high-reward outputs.

RSD introduit un biais contrôlé pour hiérarchiser les sorties à haute récompense.

The approach enables “biased acceleration” and outperforms speculative decoding.

L'approche permet une «accélération biaisée» et surpasse le décodage spéculatif.

RSD achieves up to 4.4× faster inference and +3.5 average accuracy improvement.

RSD atteint une inférence jusqu'à 4,4 × plus rapide et une amélioration de la précision moyenne de +3,5.

Technical Details and Benefits of RSD

Détails techniques et avantages du RSD

Delving into the technical aspects, RSD operates by integrating two models in a sequential yet collaborative manner. Initially, the draft model produces candidate tokens or reasoning steps at a low computational cost. Each candidate is then evaluated using a reward function, which acts as a quality gate. If a candidate token’s reward exceeds a predetermined threshold, the output is accepted; if not, the system calls upon the more computationally intensive target model to generate a refined token. This process is guided by a weighting function—typically a binary step function—that adjusts the reliance on the draft versus the target model.

Plongé dans les aspects techniques, RSD fonctionne en intégrant deux modèles de manière séquentielle mais collaborative. Initialement, le projet de modèle produit des jetons candidats ou des étapes de raisonnement à un faible coût de calcul. Chaque candidat est ensuite évalué à l'aide d'une fonction de récompense, qui agit comme une porte de qualité. Si la récompense d'un jeton candidat dépasse un seuil prédéterminé, la sortie est acceptée; Sinon, le système appelle le modèle cible plus intensif en calcul pour générer un jeton raffiné. Ce processus est guidé par une fonction de pondération - généralement une fonction d'étape binaire - qui ajuste la dépendance au projet par rapport au modèle cible.

The dynamic quality control afforded by the process reward model (PRM) ensures that only the most promising outputs bypass the target model, thereby saving on computation. One of the standout benefits of this approach is “biased acceleration,” where the controlled bias is not a detriment but rather a strategic choice to prioritize high-reward outcomes. This results in two key benefits: first, the overall inference process can be up to 4.4× faster compared to running the target model alone; second, it often yields a +3.5 average accuracy improvement over conventional parallel decoding baselines. In essence, RSD harmonizes efficiency with accuracy—allowing for a substantial reduction in the number of floating-point operations (FLOPs) while still delivering outputs that meet or even exceed the performance of the target model. The theoretical underpinnings and algorithmic details, such as the mixture distribution defined by PRSD and the adaptive acceptance criterion, provide a robust framework for practical deployment in diverse reasoning tasks.

Le contrôle de la qualité dynamique offert par le modèle de récompense de processus (PRM) garantit que seules les sorties les plus prometteuses contournent le modèle cible, économisant ainsi sur le calcul. L'un des avantages remarquables de cette approche est «l'accélération biaisée», où le biais contrôlé n'est pas un préjudice mais plutôt un choix stratégique pour hiérarchiser les résultats à forte récompense. Il en résulte deux avantages clés: premièrement, le processus d'inférence global peut atteindre 4,4 × plus rapidement par rapport à l'exécution du modèle cible seul; Deuxièmement, il donne souvent une amélioration de la précision moyenne de +3,5 par rapport à la ligne de base de décodage parallèle conventionnel. Essentiellement, le RSD harmonise l'efficacité avec précision, pour une réduction substantielle du nombre d'opérations à virgule flottante (flops) tout en fournissant des sorties qui rencontrent ou dépassent même les performances du modèle cible. Les fondements théoriques et les détails algorithmiques, tels que la distribution du mélange défini par le PRSD et le critère d'acceptation adaptatif, fournissent un cadre robuste pour le déploiement pratique dans diverses tâches de raisonnement.

Insights

Connaissances

The empirical validation of RSD is compelling. Experiments detailed in the paper demonstrate that, on challenging benchmarks such as GSM8K, MATH50K, OlympiadBench, and GPQA, RSD consistently delivers superior performance. For instance, on the MATH500 benchmark—a dataset designed to test mathematical reasoning—RSD achieved an accuracy of 88.0 when configured with a 72B target model and a 7B PRM, compared to 85.6 for the target model running alone. Not only does this configuration reduce the computational load by nearly 4.4× fewer FLOPs, but it also enhances reasoning accuracy. The results underscore the potential of RSD to outperform traditional methods, such as speculative decoding (SD) and even advanced search-based techniques like beam search or Best-of-N strategies.

La validation empirique du RSD est convaincante. Les expériences détaillées dans l'article démontrent que, sur des repères difficiles tels que GSM8K, MATH50K, Olympiadbench et GPQA, RSD offre systématiquement des performances supérieures. Par exemple, sur la référence MATH500 - un ensemble de données conçu pour tester le raisonnement mathématique - RSD a atteint une précision de 88,0 lorsqu'il est configuré avec un modèle cible 72B et un PRM 7B, par rapport à 85,6 pour le modèle cible en cours d'exécution. Non seulement cette configuration réduit la charge de calcul de près de 4,4 × flops moins, mais elle améliore également la précision du raisonnement. Les résultats soulignent le potentiel du RSD pour surpasser les méthodes traditionnelles, telles que le décodage spéculatif (SD) et même des techniques avancées basées sur la recherche comme la recherche de faisceau ou les meilleures stratégies.

Conclusion: A New Paradigm for Efficient LLM Inference

Conclusion: un nouveau paradigme pour une inférence LLM efficace

In conclusion, Reward-Guided Speculative Decoding (RSD) marks a significant milestone in the quest for more efficient LLM inference. By intelligently combining a lightweight draft model with a powerful target model, and by introducing a reward-based acceptance criterion, RSD effectively addresses the dual challenges of computational cost and output quality. The innovative approach of biased acceleration allows the system to selectively bypass expensive computations for high-reward outputs, thereby streamlining the inference process. The dynamic quality control mechanism—anchored by a process reward model—ensures that computational resources are allocated judiciously, engaging the target model only when necessary. With empirical results showing up to 4.4× faster inference and an average accuracy improvement of +3.5 over traditional methods, RSD not only paves the way for more scalable LLM deployments but also sets a new standard in the design of hybrid decoding frameworks.

En conclusion, le décodage spéculatif guidé par récompense (RSD) marque une étape importante dans la quête d'une inférence LLM plus efficace. En combinant intelligemment un modèle de brouillon léger avec un modèle cible puissant et en introduisant un critère d'acceptation basé sur la récompense, RSD relève efficacement les doubles défis du coût de calcul et de la qualité de sortie. L'approche innovante de l'accélération biaisée permet au système de contourner sélectivement les calculs coûteux pour les sorties à haute récompense, rationalisant ainsi le processus d'inférence. Le mécanisme de contrôle de la qualité dynamique - ancré par un modèle de récompense de processus - l'intensine que les ressources de calcul sont allouées judicieusement, en engageant le modèle cible uniquement si nécessaire. Avec des résultats empiriques montrant jusqu'à 4,4 × l'inférence plus rapide et une amélioration de précision moyenne de +3,5 par rapport aux méthodes traditionnelles, RSD ouvre non seulement la voie à des déploiements LLM plus évolutifs, mais établit également une nouvelle norme dans la conception de cadres de décodage hybride.

Check out the Paper and GitHub Page. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 75k+ ML SubReddit.

Consultez la page papier et github. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'hésitez pas à nous suivre sur Twitter et n'oubliez pas de rejoindre notre Sandredit 75K + ML.

🚨 Recommended Open-Source AI Platform: ‘IntellAgent is a An Open-Source Multi-Agent Framework to Evaluate Complex Conversational AI System’ (Promoted)

🚨 Plateforme d'IA open source recommandée: `` Intellegent est un cadre multi-agent open source pour évaluer le système d'IA conversationnel complexe '' (promu)

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Jul 03, 2025