![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Présentation du décodage spéculatif, API par lots asynchrones et soutien élargi Lora aux travailleurs AI
Apr 11, 2025 at 09:00 pm
Au cours des derniers trimestres, notre équipe des travailleurs de l'IA a cessé d'améliorer la qualité de notre plate-forme, travaillant sur diverses améliorations de routage
Since the launch of Workers AI in September, our mission has been to make inference accessible to everyone. Over the last few quarters, our Workers AI team has been heads down on improving the quality of our platform, working on various routing improvements, GPU optimizations, and capacity management improvements. Managing a distributed inference platform is not a simple task, but distributed systems are also what we do best. You’ll notice a recurring theme from all these announcements that has always been part of the core Cloudflare ethos — we try to solve problems through clever engineering so that we are able to do more with less.
Depuis le lancement des travailleurs de l'IA en septembre, notre mission a été de rendre l'inférence accessible à tous. Au cours des derniers trimestres, notre équipe d'IA des travailleurs a cessé d'améliorer la qualité de notre plate-forme, travaillant sur diverses améliorations de routage, optimisations GPU et améliorations de la gestion des capacités. La gestion d'une plate-forme d'inférence distribuée n'est pas une tâche simple, mais les systèmes distribués sont également ce que nous faisons le mieux. Vous remarquerez un thème récurrent de toutes ces annonces qui a toujours fait partie de l'éthique de base de Cloudflare - nous essayons de résoudre des problèmes grâce à l'ingénierie intelligente afin que nous puissions en faire plus avec moins.
Today, we’re excited to introduce speculative decoding to bring you faster inference, an asynchronous batch API for large workloads, and expanded LoRA support for more customized responses. Lastly, we’ll be recapping some of our newly added models, updated pricing, and unveiling a new dashboard to round out the usability of the platform.
Aujourd'hui, nous sommes ravis d'introduire un décodage spéculatif pour vous apporter une inférence plus rapide, une API par lots asynchrones pour les grandes charges de travail et un support LORA élargi pour des réponses plus personnalisées. Enfin, nous récapitulerons certains de nos modèles nouvellement ajoutés, les prix mis à jour et le dévoilement d'un nouveau tableau de bord pour compléter la convivialité de la plate-forme.
Speeding up inference by 2-4x with speculative decoding and more
Accélérer l'inférence de 2-4x avec décodage spéculatif et plus
We’re excited to be rolling out speed improvements to models in our catalog, starting with the Llama 3.3 70b model. These improvements include speculative decoding, prefix caching, an updated inference backend, and more. We’ve previously done a technical deep dive on speculative decoding and how we’re making Workers AI faster, which you can read about here. With these changes, we’ve been able to improve inference times by 2-4x, without any significant change to the quality of answers generated. We’re planning to incorporate these improvements into more models in the future as we release them. Today, we’re starting to roll out these changes so all Workers AI users of @cf/meta/llama-3.3-70b-instruct-fp8-fast will enjoy this automatic speed boost.
Nous sommes ravis de déployer des améliorations de la vitesse aux modèles dans notre catalogue, en commençant par le modèle LLAMA 3.3 70b. Ces améliorations incluent le décodage spéculatif, la mise en cache des préfixes, un backend d'inférence mis à jour, etc. Nous avons précédemment fait une plongée technique en profondeur sur le décodage spéculatif et comment nous rendons les travailleurs IA plus rapidement, ce que vous pouvez lire ici. Avec ces changements, nous avons été en mesure d'améliorer les temps d'inférence de 2-4x, sans aucun changement significatif de la qualité des réponses générées. Nous prévoyons d'incorporer ces améliorations dans plus de modèles à l'avenir lorsque nous les publions. Aujourd'hui, nous commençons à déployer ces modifications afin que tous les travailleurs aiment des utilisateurs de @ cf / meta / llama-3.3-70b-instruct-fp8-fast profiteront de cette augmentation automatique de la vitesse.
What is speculative decoding?
Qu'est-ce que le décodage spéculatif?
The way LLMs work is by generating text by predicting the next token in a sentence given the previous tokens. Typically, an LLM is able to predict a single future token (n+1) with one forward pass through the model. These forward passes can be computationally expensive, since they need to work through all the parameters of a model to generate one token (e.g., 70 billion parameters for Llama 3.3 70b).
Le fonctionnement des LLMS consiste à générer du texte en prédisant le jeton suivant dans une phrase donnée par les jetons précédents. En règle générale, un LLM est capable de prédire un seul futur jeton (N + 1) avec un passage vers l'avant à travers le modèle. Ces passes avant peuvent être coûteuses en calcul, car elles doivent travailler à travers tous les paramètres d'un modèle pour générer un jeton (par exemple, 70 milliards de paramètres pour LLAMA 3.3 70b).
With speculative decoding, we put a small model (known as the draft model) in front of the original model that helps predict n+x future tokens. The draft model generates a subset of candidate tokens, and the original model just has to evaluate and confirm if they should be included in the generation. Evaluating tokens is less computationally expensive, as the model can evaluate multiple tokens concurrently in a forward pass. As such, inference times can be sped up by 2-4x — meaning that users can get responses much faster.
Avec le décodage spéculatif, nous avons mis un petit modèle (connu sous le nom de modèle de projet) devant le modèle d'origine qui aide à prédire les futurs jetons N + X. Le modèle de projet génère un sous-ensemble de jetons candidats, et le modèle d'origine n'a qu'à évaluer et à confirmer s'ils doivent être inclus dans la génération. L'évaluation des jetons est moins coûteuse en calcul, car le modèle peut évaluer plusieurs jetons simultanément dans une passe avant. En tant que tels, les temps d'inférence peuvent être accélérés par 2-4x - ce qui signifie que les utilisateurs peuvent obtenir des réponses beaucoup plus rapidement.
What makes speculative decoding particularly efficient is that it’s able to use unused GPU compute left behind due to the GPU memory bottleneck LLMs create. Speculative decoding takes advantage of this unused compute by squeezing in a draft model to generate tokens faster. This means we’re able to improve the utilization of our GPUs by using them to their full extent without having parts of the GPU sit idle.
Ce qui rend le décodage spéculatif particulièrement efficace, c'est qu'il est capable d'utiliser un calcul de GPU inutilisé laissé derrière en raison de la création de LLMS GPU à mémoire de mémoire GPU. Le décodage spéculatif tire parti de ce calcul inutilisé en se pressant dans un modèle de projet pour générer des jetons plus rapidement. Cela signifie que nous sommes en mesure d'améliorer l'utilisation de nos GPU en les utilisant dans leur mesure sans que des parties du GPU soient inactives.
What is prefix caching?
Qu'est-ce que la mise en cache des préfixes?
With LLMs, there are usually two stages of generation — the first is known as “pre-fill”, which processes the user’s input tokens such as the prompt and context. Prefix caching is aimed at reducing the pre-fill time of a request. As an example, if you were asking a model to generate code based on a given file, you might insert the whole file into the context window of a request. Then, if you want to make a second request to generate the next line of code, you might send us the whole file again in the second request. Prefix caching allows us to cache the pre-fill tokens so we don’t have to process the context twice. With the same example, we would only do the pre-fill stage once for both requests, rather than doing it per request. This method is especially useful for requests that reuse the same context, such as Retrieval Augmented Generation (RAG), code generation, chatbots with memory, and more. Skipping the pre-fill stage for similar requests means faster responses for our users and more efficient usage of resources.
Avec les LLM, il y a généralement deux étapes de génération - la première est connue sous le nom de «pré-remplissage», qui traite les jetons d'entrée de l'utilisateur tels que l'invite et le contexte. La mise en cache des préfixes vise à réduire le temps de remplissage d'une demande. Par exemple, si vous demandiez à un modèle de générer du code basé sur un fichier donné, vous pouvez insérer le fichier entier dans la fenêtre de contexte d'une demande. Ensuite, si vous souhaitez faire une deuxième demande pour générer la ligne de code suivante, vous pouvez nous envoyer à nouveau le fichier entier dans la deuxième demande. La mise en cache de préfixe nous permet de mettre en cache les jetons avant le remplissage, nous n'avons donc pas à traiter le contexte deux fois. Avec le même exemple, nous ne ferions que la phase de pré-remplissage qu'une seule fois pour les deux demandes, plutôt que de le faire par demande. Cette méthode est particulièrement utile pour les demandes qui réutilisent le même contexte, telles que la génération augmentée (RAG) de récupération, la génération de code, les chatbots avec mémoire, etc. Sauter l'étape de pré-remplissage pour des demandes similaires signifie des réponses plus rapides pour nos utilisateurs et une utilisation plus efficace des ressources.
How did you validate that quality is preserved through these optimizations?
Comment avez-vous validé cette qualité conservée grâce à ces optimisations?
Since this is an in-place update to an existing model, we were particularly cautious in ensuring that we would not break any existing applications with this update. We did extensive A/B testing through a blind arena with internal employees to validate the model quality, and we asked internal and external customers to test the new version of the model to ensure that response formats were compatible and model quality was acceptable. Our testing concluded that the model performed up to standards, with people being extremely excited about the speed of the model. Most LLMs are not perfectly deterministic even with the same set of inputs, but if you do notice something
Puisqu'il s'agit d'une mise à jour sur place d'un modèle existant, nous avons été particulièrement prudents pour garantir que nous ne rompons aucune application existante avec cette mise à jour. Nous avons effectué de nombreux tests A / B via une arène aveugle avec des employés internes pour valider la qualité du modèle, et nous avons demandé aux clients internes et externes de tester la nouvelle version du modèle pour nous assurer que les formats de réponse étaient compatibles et que la qualité du modèle était acceptable. Nos tests ont conclu que le modèle avait effectué des normes, les gens étant extrêmement enthousiasmés par la vitesse du modèle. La plupart des LLM ne sont pas parfaitement déterministes même avec le même ensemble d'entrées, mais si vous remarquez quelque chose
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- 2025-W non circulé American Gold Eagle et Dr Vera Rubin Quarter Mark Nouveaux produits
- Jun 13, 2025 at 06:25 am
- Les États-Unis Mint ont publié des chiffres de vente pour ses produits numismatiques tout au long de la semaine se terminant le 8 juin, offrant les premiers résultats pour le nouvel aigle d'or américain non circulé à 50 $ à 50 $ et les derniers produits avec le quartier Dr Vera Rubin.
-
- Ruvi AI (RVU) exploite la blockchain et l'intelligence artificielle pour perturber le marketing, le divertissement et la finance
- Jun 13, 2025 at 07:05 am
- Tron a longtemps été un exemple brillant de la façon dont un projet de blockchain peut atteindre un succès remarquable en se concentrant sur sa mission et en offrant une croissance cohérente.
-
- Le groupe H100 AB augmente 101 millions de SEK (environ 10,6 millions de dollars) pour renforcer les réserves de Bitcoin
- Jun 13, 2025 at 06:25 am
- Dans une décision significative reflétant la convergence croissante de la technologie des soins de santé et de la finance numérique, la société suédoise-technique H100 Group AB a levé 101 millions de SEK (environ 10,6 millions de dollars) pour renforcer ses réserves de Bitcoin.
-
- Le PDG de Galaxy Digital, Mike Novogratz, dit que Bitcoin remplacera l'or et passera à 1 000 000 $
- Jun 13, 2025 at 06:45 am
- Aujourd'hui, le PDG de Galaxy Digital, Mike Novogratz, a déclaré à CNBC que Bitcoin était sur le chemin du remplacement de l'or et pourrait éventuellement atteindre une valeur de 1 000 000 $.
-
-
-
- La tempête de crypto se prépare à nouveau, alimentée par la confirmation par le président américain Donald Trump d'un accord commercial avec la Chine.
- Jun 13, 2025 at 07:45 am
- Une poignée de crypto-monnaies, notamment le bitcoin et les altcoins, présentent une force optimiste importante. Bitcoin, par exemple, s'est momentanément rallié au-dessus de 100 000 $
-
- Les intérêts ouverts à contrat à terme sont passés à des sommets de 2 ans à mesure que l'intérêt institutionnel augmente
- Jun 13, 2025 at 07:45 am
- Le Sol (Sol) de Solana n'a pas réussi à tenir son élan haussier après avoir gagné 10% entre lundi et jeudi. La crypto-monnaie a montré une faiblesse après avoir testé le niveau de 180 $ plusieurs fois en mai
-
- Sol Futures Open Interest augmente à des sommets de 2 ans alors que les investisseurs institutionnels montrent un intérêt croissant
- Jun 13, 2025 at 07:50 am
- Le Sol (Sol) de Solana n'a pas réussi à tenir son élan haussier après avoir gagné 10% entre lundi et jeudi. La crypto-monnaie a montré une faiblesse