|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Belohnungsgesteuerte spekulative Decodierung: Ein neues Paradigma für eine effiziente LLM-Inferenz
Feb 15, 2025 at 03:44 am
In den letzten Jahren hat die schnelle Skalierung von Großsprachenmodellen (LLMs) zu außerordentlichen Verbesserungen des Verständnisses und der Argumentation des natürlichen Sprachgebiets und zu den Fähigkeiten des natürlichen Sprachens geführt.

Salesforce AI Research has introduced Reward-Guided Speculative Decoding (RSD), a novel framework for efficient inference in large language models (LLMs). The approach aims to strike a balance between speed and performance, addressing the computational challenges faced by LLMs during sequential token generation.
Salesforce AI Research hat eine belohnungsgeführte spekulative Decoding (RSD) eingeführt, ein neuartiges Rahmen für eine effiziente Folgerung in Großsprachenmodellen (LLMs). Der Ansatz zielt darauf ab, ein Gleichgewicht zwischen Geschwindigkeit und Leistung zu erzielen und die rechnerischen Herausforderungen von LLMs während der sequentiellen Token -Generation zu bewältigen.
At a Glance
Auf einen Blick
RSD combines a fast, lightweight “draft” model with a more robust “target” model.
RSD kombiniert ein schnelles, leichtes „Draft“ -Modell mit einem robusteren „Ziel“ -Modell.
A process reward model (PRM) evaluates draft model outputs in real time.
In einem PRM (Process Reward Model) bewertet das Entwurfsmodellausgaben in Echtzeit.
RSD introduces a controlled bias to prioritize high-reward outputs.
RSD führt eine kontrollierte Verzerrung ein, um Hochversandausgaben zu priorisieren.
The approach enables “biased acceleration” and outperforms speculative decoding.
Der Ansatz ermöglicht die „voreingenommene Beschleunigung“ und übertrifft die spekulative Decodierung.
RSD achieves up to 4.4× faster inference and +3.5 average accuracy improvement.
RSD erreicht bis zu 4,4 × schneller Inferenz und +3,5 durchschnittliche Genauigkeitsverbesserung.
Technical Details and Benefits of RSD
Technische Details und Vorteile von RSD
Delving into the technical aspects, RSD operates by integrating two models in a sequential yet collaborative manner. Initially, the draft model produces candidate tokens or reasoning steps at a low computational cost. Each candidate is then evaluated using a reward function, which acts as a quality gate. If a candidate token’s reward exceeds a predetermined threshold, the output is accepted; if not, the system calls upon the more computationally intensive target model to generate a refined token. This process is guided by a weighting function—typically a binary step function—that adjusts the reliance on the draft versus the target model.
RSD wird mit den technischen Aspekten eingeteilt und betreibt zwei Modelle auf sequentielle und dennoch kollaborative Weise. Zunächst erzeugt das Entwurfsmodell Kandidaten -Token oder Argumentationsschritte zu niedrigen Rechenkosten. Jeder Kandidat wird dann anhand einer Belohnungsfunktion bewertet, die als Qualitätsgate fungiert. Wenn die Belohnung eines Kandidaten -Token einen vorgegebenen Schwellenwert überschreitet, wird die Ausgabe akzeptiert. Wenn nicht, fordert das System das rechnerisch intensivere Zielmodell auf, um ein raffiniertes Token zu generieren. Dieser Prozess wird von einer Gewichtungsfunktion geleitet - typischerweise eine binäre Schrittfunktion -, die die Abhängigkeit vom Entwurf gegenüber dem Zielmodell anpasst.
The dynamic quality control afforded by the process reward model (PRM) ensures that only the most promising outputs bypass the target model, thereby saving on computation. One of the standout benefits of this approach is “biased acceleration,” where the controlled bias is not a detriment but rather a strategic choice to prioritize high-reward outcomes. This results in two key benefits: first, the overall inference process can be up to 4.4× faster compared to running the target model alone; second, it often yields a +3.5 average accuracy improvement over conventional parallel decoding baselines. In essence, RSD harmonizes efficiency with accuracy—allowing for a substantial reduction in the number of floating-point operations (FLOPs) while still delivering outputs that meet or even exceed the performance of the target model. The theoretical underpinnings and algorithmic details, such as the mixture distribution defined by PRSD and the adaptive acceptance criterion, provide a robust framework for practical deployment in diverse reasoning tasks.
Die dynamische Qualitätskontrolle, die das Prozessbelohnungsmodell (PRM) bietet, stellt sicher, dass nur die vielversprechendsten Ausgänge das Zielmodell umgehen und so die Berechnung sparen. Einer der herausragenden Vorteile dieses Ansatzes ist die „voreingenommene Beschleunigung“, bei der die kontrollierte Verzerrung kein Nachteil darstellt, sondern eine strategische Entscheidung, um hochrangige Ergebnisse zu priorisieren. Dies führt zu zwei wichtigen Vorteilen: Erstens kann der Gesamtinferenzprozess bis zu 4,4 × schneller als das Ausführen des Zielmodells allein sein. Zweitens liefert es häufig eine durchschnittliche Verbesserung der Genauigkeit von +3,5 gegenüber herkömmlichen parallelen Dekodierungsgrundlagen. Im Wesentlichen harmoniert RSD die Effizienz mit Genauigkeit-die eine erhebliche Verringerung der Anzahl der Gleitkommaoperationen (FLOPs), während sie weiterhin Ausgänge liefern, die die Leistung des Zielmodells erfüllen oder sogar überschreiten. Die theoretischen Grundlagen und algorithmischen Details, wie die durch PRSD definierte Mischungsverteilung und das adaptive Akzeptanzkriterium, bieten einen robusten Rahmen für die praktische Bereitstellung in verschiedenen Argumentationsaufgaben.
Insights
Erkenntnisse
The empirical validation of RSD is compelling. Experiments detailed in the paper demonstrate that, on challenging benchmarks such as GSM8K, MATH50K, OlympiadBench, and GPQA, RSD consistently delivers superior performance. For instance, on the MATH500 benchmark—a dataset designed to test mathematical reasoning—RSD achieved an accuracy of 88.0 when configured with a 72B target model and a 7B PRM, compared to 85.6 for the target model running alone. Not only does this configuration reduce the computational load by nearly 4.4× fewer FLOPs, but it also enhances reasoning accuracy. The results underscore the potential of RSD to outperform traditional methods, such as speculative decoding (SD) and even advanced search-based techniques like beam search or Best-of-N strategies.
Die empirische Validierung von RSD ist überzeugend. In der Arbeit beschriebene Experimente zeigen, dass mit herausfordernden Benchmarks wie GSM8K, Math50K, Olympiadbench und GPQA, RSD eine überlegene Leistung liefert. Zum Beispiel erreichte RSD beim Math500 -Benchmark - ein Datensatz zum Testen mathematischer Argumentation - eine Genauigkeit von 88,0, wenn sie mit einem 72B -Zielmodell und einem 7B -PRM konfiguriert wurde, verglichen mit 85,6 für das alleine laufende Zielmodell. Diese Konfiguration verringert nicht nur die Rechenlast um fast 4,4 × weniger Flops, sondern verbessert auch die Genauigkeit der Argumentation. Die Ergebnisse unterstreichen das Potenzial von RSD, herkömmliche Methoden wie spekulative Decoding (SD) und sogar fortschrittliche Suchbasis-Techniken wie Strahlsuche oder Best-of-N-Strategien zu übertreffen.
Conclusion: A New Paradigm for Efficient LLM Inference
Schlussfolgerung: Ein neues Paradigma für effiziente LLM -Inferenz
In conclusion, Reward-Guided Speculative Decoding (RSD) marks a significant milestone in the quest for more efficient LLM inference. By intelligently combining a lightweight draft model with a powerful target model, and by introducing a reward-based acceptance criterion, RSD effectively addresses the dual challenges of computational cost and output quality. The innovative approach of biased acceleration allows the system to selectively bypass expensive computations for high-reward outputs, thereby streamlining the inference process. The dynamic quality control mechanism—anchored by a process reward model—ensures that computational resources are allocated judiciously, engaging the target model only when necessary. With empirical results showing up to 4.4× faster inference and an average accuracy improvement of +3.5 over traditional methods, RSD not only paves the way for more scalable LLM deployments but also sets a new standard in the design of hybrid decoding frameworks.
Zusammenfassend markiert die Belohnung, die lohnende spekulative Decoding (RSD) ist, einen signifikanten Meilenstein bei der Suche nach effizienterer LLM-Inferenz. Durch intelligentes Kombinieren eines leichten Entwurfsmodells mit einem leistungsstarken Zielmodell und durch Einführung eines Belohnungs-basierten Akzeptanzkriteriums befasst sich RSD effektiv mit den doppelten Herausforderungen der Rechenkosten und der Ausgangsqualität. Der innovative Ansatz der voreingenommenen Beschleunigung ermöglicht es dem System, teure Berechnungen für hochrangige Ausgaben selektiv zu umgehen und so den Inferenzprozess zu optimieren. Der dynamische Qualitätskontrollmechanismus, der durch ein Prozessbelohnungsmodell verankert ist - sorgt dafür, dass Computerressourcen mit Bedacht zugewiesen werden und das Zielmodell nur bei Bedarf einbeziehen. Mit empirischen Ergebnissen, die bis zu 4,4 × schnellerer Inferenz und einer durchschnittlichen Genauigkeitsverbesserung von +3,5 gegenüber herkömmlichen Methoden zeigen, ebnet RSD nicht nur den Weg für skalierbare LLM -Bereitstellungen, sondern legt auch einen neuen Standard für die Gestaltung von Hybrid -Dekodierungsrahmen fest.
Check out the Paper and GitHub Page. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 75k+ ML SubReddit.
Schauen Sie sich die Seite "Papier und GitHub" an. Alle Krediten für diese Forschung gilt an die Forscher dieses Projekts. Sie können uns auch gerne auf Twitter folgen und vergessen Sie nicht, unseren 75.000+ ML Subreddit beizutreten.
? Recommended Open-Source AI Platform: ‘IntellAgent is a An Open-Source Multi-Agent Framework to Evaluate Complex Conversational AI System’ (Promoted)
? Empfohlene Open-Source-AI-Plattform: „Intellagent ist ein Open-Source-Multi-Agent-Rahmen zur Bewertung des komplexen Konversations-KI-Systems“ (gefördert)
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Konsens 2026 Miami: Web3, Blockchain, Kryptowährung, NFTs, Metaverse, Konferenz, 5. Mai – Wo die Wall Street auf die digitale Grenze trifft
- May 01, 2026 at 11:27 pm
- In Miami herrscht Aufregung, während sich am 5. Mai der Konsens 2026 nähert, der Web3, Blockchain, Krypto, NFTs und den Wandel des Metaversums vom Hype zur institutionellen und nachhaltigen Realität hervorhebt.
-
- Die Fed hält die Zinsen stabil, was inmitten geopolitischer Spannungen einen Bitcoin-Preisverfall auslöst
- May 01, 2026 at 04:04 am
- Die Entscheidung der Federal Reserve, die Zinssätze beizubehalten, wirkt sich in Verbindung mit dem Nahostkonflikt auf den Preis von Bitcoin aus. Analyse aktueller Trends und Marktreaktionen.
-
- Bitcoin-Miner elektrifizieren das Netz: Der Erwerb eines Gaskraftwerks in Ohio läutet eine neue Ära für digitales Gold ein
- Apr 30, 2026 at 10:38 pm
- Die Bitcoin-Mining-Branche befindet sich in einem erheblichen Wandel, wobei große Akteure ihre Aktivitäten aggressiv ausweiten und strategisch Energieanlagen wie Gaskraftwerke in Ohio erwerben, um ihre Zukunft in der digitalen Wirtschaft zu festigen.
-
- Der MEGA-Token von MegaETH erreicht den Big Apple: Er setzt neue Leistungsmaßstäbe für Echtzeit-Blockchain
- Apr 30, 2026 at 09:11 pm
- Der MEGA-Token von MegaETH wurde offiziell eingeführt und bestätigt seine „Echtzeit“-Blockchain-Vision mit einem leistungsorientierten Verteilungsmodell und einer schnellen USDM-Stablecoin-Einführung.
-
- Solanas rutschiger Abhang: Die Preisprognose deutet auf einen Widerstandsverlust und mögliche weitere Rückgänge hin
- Apr 30, 2026 at 09:08 pm
- Solana kämpft darum, wichtige Widerstände zu durchbrechen, was auf einen möglichen Abwärtstrend hindeutet. Wiederholte Ablehnungen bei 86 bis 88 US-Dollar, gepaart mit einem unterbrochenen kurzfristigen Muster, deuten auf Ziele von nur 67 US-Dollar oder sogar 40 US-Dollar hin, da die Verkäufer die Kontrolle behalten. Anleger sollten die kritischen Unterstützungsniveaus genau beobachten.
-
- BTC, Öl, Gewinne: Geopolitik treibt Rohöl an, Kryptos rutschen ab, Triumphe und Prüfungen der Technologie
- Apr 30, 2026 at 04:51 pm
- Die globalen Märkte sind ein Wirbelsturm: BTC sinkt, während der Ölpreis aufgrund geopolitischer Spannungen Mehrjahreshöchststände erreicht, während Technologiegiganten gemischte Gewinne verbuchen, was ein Zeichen für eine komplexe Finanzlandschaft ist.
-
- New York Citys neuer Trend: Abstecksysteme, USD1 und Governance treiben die nächste Welle von Krypto voran
- Apr 30, 2026 at 03:02 pm
- Von lukrativen 1-Dollar-Verdienstveranstaltungen bis hin zu robusten Governance-Modellen wimmelt es im Kryptobereich von Innovationen, die die Art und Weise, wie wir mit digitalen Vermögenswerten umgehen, neu gestalten und sich dabei auf langfristiges Engagement und den Nutzen stabiler Münzen konzentrieren.
-
- OKX stellt Agent Payments Protocol vor: läutet eine neue Ära der KI-Transaktionen ein
- Apr 30, 2026 at 02:53 pm
- OKX führt sein Agent Payments Protocol (APP) ein, einen offenen Standard für KI-gesteuerten Handel, der es Agenten ermöglicht, komplette Geschäftszyklen zu verwalten. Entdecken Sie die Auswirkungen auf KI-Transaktionen und Agentenzahlungen.

































