$87959.907984 USD

1.34%

ethereum

$2920.497338 USD

3.04%

tether

$0.999775 USD

0.00%

xrp

$2.237324 USD

8.12%

bnb

$860.243768 USD

0.90%

solana

$138.089498 USD

5.43%

usd-coin

$0.999807 USD

0.01%

tron

$0.272801 USD

-1.53%

dogecoin

$0.150904 USD

2.96%

cardano

$0.421635 USD

1.97%

hyperliquid

$32.152445 USD

2.23%

bitcoin-cash

$533.301069 USD

-1.94%

chainlink

$12.953417 USD

2.68%

unus-sed-leo

$9.535951 USD

0.73%

zcash

$521.483386 USD

-2.87%

Nachrichtenartikel zu Kryptowährungen

Belohnungsgesteuerte spekulative Decodierung: Ein neues Paradigma für eine effiziente LLM-Inferenz

Feb 15, 2025 at 03:44 am

In den letzten Jahren hat die schnelle Skalierung von Großsprachenmodellen (LLMs) zu außerordentlichen Verbesserungen des Verständnisses und der Argumentation des natürlichen Sprachgebiets und zu den Fähigkeiten des natürlichen Sprachens geführt.

Salesforce AI Research has introduced Reward-Guided Speculative Decoding (RSD), a novel framework for efficient inference in large language models (LLMs). The approach aims to strike a balance between speed and performance, addressing the computational challenges faced by LLMs during sequential token generation.

Salesforce AI Research hat eine belohnungsgeführte spekulative Decoding (RSD) eingeführt, ein neuartiges Rahmen für eine effiziente Folgerung in Großsprachenmodellen (LLMs). Der Ansatz zielt darauf ab, ein Gleichgewicht zwischen Geschwindigkeit und Leistung zu erzielen und die rechnerischen Herausforderungen von LLMs während der sequentiellen Token -Generation zu bewältigen.

At a Glance

Auf einen Blick

RSD combines a fast, lightweight “draft” model with a more robust “target” model.

RSD kombiniert ein schnelles, leichtes „Draft“ -Modell mit einem robusteren „Ziel“ -Modell.

A process reward model (PRM) evaluates draft model outputs in real time.

In einem PRM (Process Reward Model) bewertet das Entwurfsmodellausgaben in Echtzeit.

RSD introduces a controlled bias to prioritize high-reward outputs.

RSD führt eine kontrollierte Verzerrung ein, um Hochversandausgaben zu priorisieren.

The approach enables “biased acceleration” and outperforms speculative decoding.

Der Ansatz ermöglicht die „voreingenommene Beschleunigung“ und übertrifft die spekulative Decodierung.

RSD achieves up to 4.4× faster inference and +3.5 average accuracy improvement.

RSD erreicht bis zu 4,4 × schneller Inferenz und +3,5 durchschnittliche Genauigkeitsverbesserung.

Technical Details and Benefits of RSD

Technische Details und Vorteile von RSD

Delving into the technical aspects, RSD operates by integrating two models in a sequential yet collaborative manner. Initially, the draft model produces candidate tokens or reasoning steps at a low computational cost. Each candidate is then evaluated using a reward function, which acts as a quality gate. If a candidate token’s reward exceeds a predetermined threshold, the output is accepted; if not, the system calls upon the more computationally intensive target model to generate a refined token. This process is guided by a weighting function—typically a binary step function—that adjusts the reliance on the draft versus the target model.

RSD wird mit den technischen Aspekten eingeteilt und betreibt zwei Modelle auf sequentielle und dennoch kollaborative Weise. Zunächst erzeugt das Entwurfsmodell Kandidaten -Token oder Argumentationsschritte zu niedrigen Rechenkosten. Jeder Kandidat wird dann anhand einer Belohnungsfunktion bewertet, die als Qualitätsgate fungiert. Wenn die Belohnung eines Kandidaten -Token einen vorgegebenen Schwellenwert überschreitet, wird die Ausgabe akzeptiert. Wenn nicht, fordert das System das rechnerisch intensivere Zielmodell auf, um ein raffiniertes Token zu generieren. Dieser Prozess wird von einer Gewichtungsfunktion geleitet - typischerweise eine binäre Schrittfunktion -, die die Abhängigkeit vom Entwurf gegenüber dem Zielmodell anpasst.

The dynamic quality control afforded by the process reward model (PRM) ensures that only the most promising outputs bypass the target model, thereby saving on computation. One of the standout benefits of this approach is “biased acceleration,” where the controlled bias is not a detriment but rather a strategic choice to prioritize high-reward outcomes. This results in two key benefits: first, the overall inference process can be up to 4.4× faster compared to running the target model alone; second, it often yields a +3.5 average accuracy improvement over conventional parallel decoding baselines. In essence, RSD harmonizes efficiency with accuracy—allowing for a substantial reduction in the number of floating-point operations (FLOPs) while still delivering outputs that meet or even exceed the performance of the target model. The theoretical underpinnings and algorithmic details, such as the mixture distribution defined by PRSD and the adaptive acceptance criterion, provide a robust framework for practical deployment in diverse reasoning tasks.

Die dynamische Qualitätskontrolle, die das Prozessbelohnungsmodell (PRM) bietet, stellt sicher, dass nur die vielversprechendsten Ausgänge das Zielmodell umgehen und so die Berechnung sparen. Einer der herausragenden Vorteile dieses Ansatzes ist die „voreingenommene Beschleunigung“, bei der die kontrollierte Verzerrung kein Nachteil darstellt, sondern eine strategische Entscheidung, um hochrangige Ergebnisse zu priorisieren. Dies führt zu zwei wichtigen Vorteilen: Erstens kann der Gesamtinferenzprozess bis zu 4,4 × schneller als das Ausführen des Zielmodells allein sein. Zweitens liefert es häufig eine durchschnittliche Verbesserung der Genauigkeit von +3,5 gegenüber herkömmlichen parallelen Dekodierungsgrundlagen. Im Wesentlichen harmoniert RSD die Effizienz mit Genauigkeit-die eine erhebliche Verringerung der Anzahl der Gleitkommaoperationen (FLOPs), während sie weiterhin Ausgänge liefern, die die Leistung des Zielmodells erfüllen oder sogar überschreiten. Die theoretischen Grundlagen und algorithmischen Details, wie die durch PRSD definierte Mischungsverteilung und das adaptive Akzeptanzkriterium, bieten einen robusten Rahmen für die praktische Bereitstellung in verschiedenen Argumentationsaufgaben.

Insights

Erkenntnisse

The empirical validation of RSD is compelling. Experiments detailed in the paper demonstrate that, on challenging benchmarks such as GSM8K, MATH50K, OlympiadBench, and GPQA, RSD consistently delivers superior performance. For instance, on the MATH500 benchmark—a dataset designed to test mathematical reasoning—RSD achieved an accuracy of 88.0 when configured with a 72B target model and a 7B PRM, compared to 85.6 for the target model running alone. Not only does this configuration reduce the computational load by nearly 4.4× fewer FLOPs, but it also enhances reasoning accuracy. The results underscore the potential of RSD to outperform traditional methods, such as speculative decoding (SD) and even advanced search-based techniques like beam search or Best-of-N strategies.

Die empirische Validierung von RSD ist überzeugend. In der Arbeit beschriebene Experimente zeigen, dass mit herausfordernden Benchmarks wie GSM8K, Math50K, Olympiadbench und GPQA, RSD eine überlegene Leistung liefert. Zum Beispiel erreichte RSD beim Math500 -Benchmark - ein Datensatz zum Testen mathematischer Argumentation - eine Genauigkeit von 88,0, wenn sie mit einem 72B -Zielmodell und einem 7B -PRM konfiguriert wurde, verglichen mit 85,6 für das alleine laufende Zielmodell. Diese Konfiguration verringert nicht nur die Rechenlast um fast 4,4 × weniger Flops, sondern verbessert auch die Genauigkeit der Argumentation. Die Ergebnisse unterstreichen das Potenzial von RSD, herkömmliche Methoden wie spekulative Decoding (SD) und sogar fortschrittliche Suchbasis-Techniken wie Strahlsuche oder Best-of-N-Strategien zu übertreffen.

Conclusion: A New Paradigm for Efficient LLM Inference

Schlussfolgerung: Ein neues Paradigma für effiziente LLM -Inferenz

In conclusion, Reward-Guided Speculative Decoding (RSD) marks a significant milestone in the quest for more efficient LLM inference. By intelligently combining a lightweight draft model with a powerful target model, and by introducing a reward-based acceptance criterion, RSD effectively addresses the dual challenges of computational cost and output quality. The innovative approach of biased acceleration allows the system to selectively bypass expensive computations for high-reward outputs, thereby streamlining the inference process. The dynamic quality control mechanism—anchored by a process reward model—ensures that computational resources are allocated judiciously, engaging the target model only when necessary. With empirical results showing up to 4.4× faster inference and an average accuracy improvement of +3.5 over traditional methods, RSD not only paves the way for more scalable LLM deployments but also sets a new standard in the design of hybrid decoding frameworks.

Zusammenfassend markiert die Belohnung, die lohnende spekulative Decoding (RSD) ist, einen signifikanten Meilenstein bei der Suche nach effizienterer LLM-Inferenz. Durch intelligentes Kombinieren eines leichten Entwurfsmodells mit einem leistungsstarken Zielmodell und durch Einführung eines Belohnungs-basierten Akzeptanzkriteriums befasst sich RSD effektiv mit den doppelten Herausforderungen der Rechenkosten und der Ausgangsqualität. Der innovative Ansatz der voreingenommenen Beschleunigung ermöglicht es dem System, teure Berechnungen für hochrangige Ausgaben selektiv zu umgehen und so den Inferenzprozess zu optimieren. Der dynamische Qualitätskontrollmechanismus, der durch ein Prozessbelohnungsmodell verankert ist - sorgt dafür, dass Computerressourcen mit Bedacht zugewiesen werden und das Zielmodell nur bei Bedarf einbeziehen. Mit empirischen Ergebnissen, die bis zu 4,4 × schnellerer Inferenz und einer durchschnittlichen Genauigkeitsverbesserung von +3,5 gegenüber herkömmlichen Methoden zeigen, ebnet RSD nicht nur den Weg für skalierbare LLM -Bereitstellungen, sondern legt auch einen neuen Standard für die Gestaltung von Hybrid -Dekodierungsrahmen fest.

Check out the Paper and GitHub Page. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 75k+ ML SubReddit.

Schauen Sie sich die Seite "Papier und GitHub" an. Alle Krediten für diese Forschung gilt an die Forscher dieses Projekts. Sie können uns auch gerne auf Twitter folgen und vergessen Sie nicht, unseren 75.000+ ML Subreddit beizutreten.

? Recommended Open-Source AI Platform: ‘IntellAgent is a An Open-Source Multi-Agent Framework to Evaluate Complex Conversational AI System’ (Promoted)

? Empfohlene Open-Source-AI-Plattform: „Intellagent ist ein Open-Source-Multi-Agent-Rahmen zur Bewertung des komplexen Konversations-KI-Systems“ (gefördert)

Originalquelle：marktechpost

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Jun 17, 2026

Mehr