|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Einführung spekulativer Decodierung, asynchroner Batch -API und erweiterter LORA -Unterstützung für die Arbeiter -KI
Apr 11, 2025 at 09:00 pm
In den letzten Quartalen hat sich unser AI -Team der Arbeiter auf die Verbesserung der Qualität unserer Plattform verbessert und an verschiedenen Routing -Verbesserungen gearbeitet

Since the launch of Workers AI in September, our mission has been to make inference accessible to everyone. Over the last few quarters, our Workers AI team has been heads down on improving the quality of our platform, working on various routing improvements, GPU optimizations, and capacity management improvements. Managing a distributed inference platform is not a simple task, but distributed systems are also what we do best. You’ll notice a recurring theme from all these announcements that has always been part of the core Cloudflare ethos — we try to solve problems through clever engineering so that we are able to do more with less.
Seit dem Start von Arbeitern KI im September bestand unsere Mission darin, für alle Schlussfolgerungen zugänglich zu machen. In den letzten Quartalen hat unser Arbeiter -KI -Team die Qualität unserer Plattform verbessert und an verschiedenen Routing -Verbesserungen, GPU -Optimierungen und Verbesserungen des Kapazitätsmanagements gearbeitet. Das Verwalten einer verteilten Inferenzplattform ist keine einfache Aufgabe, aber verteilte Systeme sind auch das, was wir am besten können. Sie werden ein wiederkehrendes Thema aus all diesen Ankündigungen bemerken, die schon immer Teil des Core Cloudflare -Ethos waren - wir versuchen, Probleme durch clevere Engineering zu lösen, damit wir mit weniger mehr tun können.
Today, we’re excited to introduce speculative decoding to bring you faster inference, an asynchronous batch API for large workloads, and expanded LoRA support for more customized responses. Lastly, we’ll be recapping some of our newly added models, updated pricing, and unveiling a new dashboard to round out the usability of the platform.
Heute freuen wir uns, eine spekulative Dekodierung einzuführen, um Ihnen schnellere Inferenz zu bringen, eine asynchrone Batch -API für große Workloads und erweiterte LORA -Unterstützung für maßgeschneiderte Antworten. Zuletzt werden wir einige unserer neu hinzugefügten Modelle, aktualisierte Preise und ein neues Armaturenbrett enthüllen, um die Verwendbarkeit der Plattform abzurunden.
Speeding up inference by 2-4x with speculative decoding and more
Inferenz von 2-4x mit spekulativem Decodieren und mehr beschleunigen
We’re excited to be rolling out speed improvements to models in our catalog, starting with the Llama 3.3 70b model. These improvements include speculative decoding, prefix caching, an updated inference backend, and more. We’ve previously done a technical deep dive on speculative decoding and how we’re making Workers AI faster, which you can read about here. With these changes, we’ve been able to improve inference times by 2-4x, without any significant change to the quality of answers generated. We’re planning to incorporate these improvements into more models in the future as we release them. Today, we’re starting to roll out these changes so all Workers AI users of @cf/meta/llama-3.3-70b-instruct-fp8-fast will enjoy this automatic speed boost.
Wir freuen uns, Geschwindigkeitsverbesserungen für Modelle in unserem Katalog zu vergrößern, beginnend mit dem Lama 3.3 70B -Modell. Diese Verbesserungen umfassen spekulative Decodierung, Präfix -Caching, ein aktualisiertes Inferenz -Backend und mehr. Wir haben zuvor einen technischen Tauchgang mit spekulativem Dekodieren und wie wir Arbeitnehmer schneller machen, was Sie hier lesen können. Mit diesen Veränderungen konnten wir die Inferenzzeiten um 2-4x verbessern, ohne dass sich die Qualität der generierten Antworten erheblich verändert. Wir planen, diese Verbesserungen in Zukunft in mehr Modellen einzubeziehen, während wir sie veröffentlichen. Heute beginnen wir, diese Änderungen einzuführen, sodass alle KI-Benutzer von @cf/meta/lama-3.3-70b-Instruct-FP8-Fast diesen automatischen Geschwindigkeitsschub genießen werden.
What is speculative decoding?
Was ist spekulative Decodierung?
The way LLMs work is by generating text by predicting the next token in a sentence given the previous tokens. Typically, an LLM is able to predict a single future token (n+1) with one forward pass through the model. These forward passes can be computationally expensive, since they need to work through all the parameters of a model to generate one token (e.g., 70 billion parameters for Llama 3.3 70b).
Die Art und Weise, wie LLMs funktioniert, wird durch Vorhersagen des nächsten Tokens in einem Satz, der die vorherigen Tokens vorhersagt, generiert. Typischerweise kann ein LLM ein einzelnes zukünftiges Token (N+1) mit einem Vorwärtsgang durch das Modell vorhersagen. Diese Forward -Durchgänge können rechnerisch teuer sein, da sie alle Parameter eines Modells durcharbeiten müssen, um ein Token zu generieren (z. B. 70 Milliarden Parameter für Lama 3.3 70b).
With speculative decoding, we put a small model (known as the draft model) in front of the original model that helps predict n+x future tokens. The draft model generates a subset of candidate tokens, and the original model just has to evaluate and confirm if they should be included in the generation. Evaluating tokens is less computationally expensive, as the model can evaluate multiple tokens concurrently in a forward pass. As such, inference times can be sped up by 2-4x — meaning that users can get responses much faster.
Bei der spekulativen Dekodierung stellen wir ein kleines Modell (das als Entwurfsmodell bezeichnet) vor das Originalmodell gestellt, das dazu beiträgt, N+X zukünftige Token vorherzusagen. Das Entwurfsmodell generiert eine Untergruppe von Kandidaten -Token, und das ursprüngliche Modell muss nur bewerten und bestätigen, ob sie in die Generation aufgenommen werden sollten. Die Bewertung von Token ist weniger rechnerisch teuer, da das Modell mehrere Token gleichzeitig in einem Vorwärtspass bewerten kann. Daher können Inferenzzeiten von 2-4x beschleunigt werden-was bedeutet, dass Benutzer Antworten viel schneller erhalten können.
What makes speculative decoding particularly efficient is that it’s able to use unused GPU compute left behind due to the GPU memory bottleneck LLMs create. Speculative decoding takes advantage of this unused compute by squeezing in a draft model to generate tokens faster. This means we’re able to improve the utilization of our GPUs by using them to their full extent without having parts of the GPU sit idle.
Was die spekulative Dekodierung besonders effizient macht, ist, dass es in der Lage ist, nicht verwendete GPU -Rechens zurückzuführen ist, die aufgrund der GPU -Speicher -Engpass -LLMs erstellt wurden. Die spekulative Decodierung nutzt diesen ungenutzten Berechnung, indem sie in einem Entwurfsmodell zusammengedrückt werden, um Token schneller zu generieren. Dies bedeutet, dass wir die Nutzung unserer GPUs verbessern können, indem wir sie in vollem Umfang verwenden, ohne dass Teile der GPU im Leerlauf sitzen.
What is prefix caching?
Was ist das Präfix -Caching?
With LLMs, there are usually two stages of generation — the first is known as “pre-fill”, which processes the user’s input tokens such as the prompt and context. Prefix caching is aimed at reducing the pre-fill time of a request. As an example, if you were asking a model to generate code based on a given file, you might insert the whole file into the context window of a request. Then, if you want to make a second request to generate the next line of code, you might send us the whole file again in the second request. Prefix caching allows us to cache the pre-fill tokens so we don’t have to process the context twice. With the same example, we would only do the pre-fill stage once for both requests, rather than doing it per request. This method is especially useful for requests that reuse the same context, such as Retrieval Augmented Generation (RAG), code generation, chatbots with memory, and more. Skipping the pre-fill stage for similar requests means faster responses for our users and more efficient usage of resources.
Bei LLMs gibt es in der Regel zwei Erzeugungsstufen-die erste wird als „Vor-Fill“ bezeichnet, wodurch die Eingangs-Token des Benutzers wie die Eingabeaufforderung und der Kontext verarbeitet werden. Das Präfix-Caching zielt darauf ab, die Zeit vor der Fülle einer Anfrage zu verkürzen. Wenn Sie beispielsweise ein Modell gebeten haben, Code basierend auf einer bestimmten Datei zu generieren, können Sie die gesamte Datei in das Kontextfenster einer Anforderung einfügen. Wenn Sie dann eine zweite Anfrage stellen möchten, um die nächste Codezeile zu generieren, können Sie uns die gesamte Datei in der zweiten Anfrage erneut senden. Das Präfix-Caching ermöglicht es uns, die Vor-Fill-Token zu speichern, sodass wir den Kontext nicht zweimal verarbeiten müssen. Mit dem gleichen Beispiel würden wir nur einmal die Vor-Fill-Stufe für beide Anfragen durchführen, anstatt sie pro Anfrage zu tun. Diese Methode ist besonders nützlich für Anfragen, die denselben Kontext wiederverwenden, wie z. Wenn Sie die Vor-Fill-Phase für ähnliche Anfragen überspringen, sind schnellere Antworten für unsere Benutzer und eine effizientere Nutzung von Ressourcen.
How did you validate that quality is preserved through these optimizations?
Wie haben Sie diese Qualität durch diese Optimierungen bestätigt?
Since this is an in-place update to an existing model, we were particularly cautious in ensuring that we would not break any existing applications with this update. We did extensive A/B testing through a blind arena with internal employees to validate the model quality, and we asked internal and external customers to test the new version of the model to ensure that response formats were compatible and model quality was acceptable. Our testing concluded that the model performed up to standards, with people being extremely excited about the speed of the model. Most LLMs are not perfectly deterministic even with the same set of inputs, but if you do notice something
Da es sich um ein Aufbau-Update für ein vorhandenes Modell handelt, waren wir besonders vorsichtig, um sicherzustellen, dass wir mit diesem Update keine vorhandenen Anwendungen brechen würden. Wir haben umfangreiche A/B -Tests durch eine blinde Arena mit internen Mitarbeitern durchgeführt, um die Modellqualität zu validieren, und baten interne und externe Kunden, die neue Version des Modells zu testen, um sicherzustellen, dass die Antwortformate kompatibel und die Modellqualität akzeptabel waren. Unsere Tests kamen zu dem Schluss, dass das Modell den Standards entspricht, wobei die Menschen über die Geschwindigkeit des Modells äußerst aufgeregt waren. Die meisten LLMs sind selbst mit den gleichen Eingängen nicht perfekt deterministisch, aber wenn Sie etwas bemerken
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Konsens 2026 Miami: Web3, Blockchain, Kryptowährung, NFTs, Metaverse, Konferenz, 5. Mai – Wo die Wall Street auf die digitale Grenze trifft
- May 01, 2026 at 11:27 pm
- In Miami herrscht Aufregung, während sich am 5. Mai der Konsens 2026 nähert, der Web3, Blockchain, Krypto, NFTs und den Wandel des Metaversums vom Hype zur institutionellen und nachhaltigen Realität hervorhebt.
-
- Die Fed hält die Zinsen stabil, was inmitten geopolitischer Spannungen einen Bitcoin-Preisverfall auslöst
- May 01, 2026 at 04:04 am
- Die Entscheidung der Federal Reserve, die Zinssätze beizubehalten, wirkt sich in Verbindung mit dem Nahostkonflikt auf den Preis von Bitcoin aus. Analyse aktueller Trends und Marktreaktionen.
-
- Bitcoin-Miner elektrifizieren das Netz: Der Erwerb eines Gaskraftwerks in Ohio läutet eine neue Ära für digitales Gold ein
- Apr 30, 2026 at 10:38 pm
- Die Bitcoin-Mining-Branche befindet sich in einem erheblichen Wandel, wobei große Akteure ihre Aktivitäten aggressiv ausweiten und strategisch Energieanlagen wie Gaskraftwerke in Ohio erwerben, um ihre Zukunft in der digitalen Wirtschaft zu festigen.
-
- Der MEGA-Token von MegaETH erreicht den Big Apple: Er setzt neue Leistungsmaßstäbe für Echtzeit-Blockchain
- Apr 30, 2026 at 09:11 pm
- Der MEGA-Token von MegaETH wurde offiziell eingeführt und bestätigt seine „Echtzeit“-Blockchain-Vision mit einem leistungsorientierten Verteilungsmodell und einer schnellen USDM-Stablecoin-Einführung.
-
- Solanas rutschiger Abhang: Die Preisprognose deutet auf einen Widerstandsverlust und mögliche weitere Rückgänge hin
- Apr 30, 2026 at 09:08 pm
- Solana kämpft darum, wichtige Widerstände zu durchbrechen, was auf einen möglichen Abwärtstrend hindeutet. Wiederholte Ablehnungen bei 86 bis 88 US-Dollar, gepaart mit einem unterbrochenen kurzfristigen Muster, deuten auf Ziele von nur 67 US-Dollar oder sogar 40 US-Dollar hin, da die Verkäufer die Kontrolle behalten. Anleger sollten die kritischen Unterstützungsniveaus genau beobachten.
-
- BTC, Öl, Gewinne: Geopolitik treibt Rohöl an, Kryptos rutschen ab, Triumphe und Prüfungen der Technologie
- Apr 30, 2026 at 04:51 pm
- Die globalen Märkte sind ein Wirbelsturm: BTC sinkt, während der Ölpreis aufgrund geopolitischer Spannungen Mehrjahreshöchststände erreicht, während Technologiegiganten gemischte Gewinne verbuchen, was ein Zeichen für eine komplexe Finanzlandschaft ist.
-
- New York Citys neuer Trend: Abstecksysteme, USD1 und Governance treiben die nächste Welle von Krypto voran
- Apr 30, 2026 at 03:02 pm
- Von lukrativen 1-Dollar-Verdienstveranstaltungen bis hin zu robusten Governance-Modellen wimmelt es im Kryptobereich von Innovationen, die die Art und Weise, wie wir mit digitalen Vermögenswerten umgehen, neu gestalten und sich dabei auf langfristiges Engagement und den Nutzen stabiler Münzen konzentrieren.
-
- OKX stellt Agent Payments Protocol vor: läutet eine neue Ära der KI-Transaktionen ein
- Apr 30, 2026 at 02:53 pm
- OKX führt sein Agent Payments Protocol (APP) ein, einen offenen Standard für KI-gesteuerten Handel, der es Agenten ermöglicht, komplette Geschäftszyklen zu verwalten. Entdecken Sie die Auswirkungen auf KI-Transaktionen und Agentenzahlungen.

































