$115761.354377 USD

-1.37%

ethereum

$4475.268687 USD

-2.95%

xrp

$2.997758 USD

-2.97%

tether

$1.000517 USD

0.02%

bnb

$986.306400 USD

-0.03%

solana

$239.777963 USD

-3.17%

usd-coin

$0.999885 USD

0.01%

dogecoin

$0.266431 USD

-5.31%

tron

$0.344054 USD

-2.27%

cardano

$0.895891 USD

-3.84%

hyperliquid

$56.136248 USD

-3.59%

chainlink

$23.595739 USD

-4.88%

avalanche

$33.902799 USD

-4.84%

ethena-usde

$1.001134 USD

0.02%

sui

$3.673881 USD

-5.41%

Articles d’actualité sur les crypto-monnaies

Apple et NVIDIA collaborent pour implémenter des performances de génération de texte plus rapides avec de grands modèles de langage

Dec 19, 2024 at 05:33 am

Dans un article de blog publié aujourd'hui, les ingénieurs Apple ont partagé de nouveaux détails sur une collaboration avec NVIDIA visant à implémenter des performances de génération de texte plus rapides avec de grands modèles de langage.

Apple engineers have shared new details on a collaboration with NVIDIA to implement faster text generation performance with large language models (LLMs).

Les ingénieurs Apple ont partagé de nouveaux détails sur une collaboration avec NVIDIA pour implémenter des performances de génération de texte plus rapides avec des modèles de langage étendus (LLM).

Earlier this year, Apple published and open sourced its Recurrent Drafter (ReDrafter) technique, a new method for generating text with LLMs that’s significantly faster and “achieves state of the art performance.” It combines two techniques: beam search (to explore multiple possibilities) and dynamic tree attention (to efficiently handle choices).

Plus tôt cette année, Apple a publié et open source sa technique Recurrent Drafter (ReDrafter), une nouvelle méthode de génération de texte avec des LLM qui est nettement plus rapide et « atteint des performances de pointe ». Il combine deux techniques : la recherche de faisceaux (pour explorer de multiples possibilités) et l'attention dynamique des arbres (pour gérer efficacement les choix).

While its research demonstrated strong results, Apple also collaborated with NVIDIA to apply ReDrafter in production. As part of this collaboration, ReDrafter was integrated into NVIDIA TensorRT-LLM, a tool that helps run LLMs faster on NVIDIA GPUs.

Bien que ses recherches aient donné des résultats probants, Apple a également collaboré avec NVIDIA pour appliquer ReDrafter en production. Dans le cadre de cette collaboration, ReDrafter a été intégré à NVIDIA TensorRT-LLM, un outil qui permet d'exécuter les LLM plus rapidement sur les GPU NVIDIA.

Here are the results:

Voici les résultats :

To enable the integration of ReDrafter, NVIDIA added new operators or exposed existing ones, which considerably improved TensorRT-LLM’s capability to accommodate sophisticated models and decoding methods. ML developers using NVIDIA GPUs can now easily benefit from ReDrafter’s accelerated token generation for their production LLM applications with TensorRT-LLM.

Pour permettre l'intégration de ReDrafter, NVIDIA a ajouté de nouveaux opérateurs ou exposé ceux existants, ce qui a considérablement amélioré la capacité de TensorRT-LLM à prendre en charge des modèles et des méthodes de décodage sophistiqués. Les développeurs de ML utilisant des GPU NVIDIA peuvent désormais facilement bénéficier de la génération accélérée de jetons de ReDrafter pour leurs applications LLM de production avec TensorRT-LLM.

In benchmarking a tens-of-billions parameter production model on NVIDIA GPUs, using the NVIDIA TensorRT-LLM inference acceleration framework with ReDrafter, we have seen 2.7x speed-up in generated tokens per second for greedy decoding. These benchmark results indicate this tech could significantly reduce latency users may experience, while also using fewer GPUs and consuming less power.

En comparant un modèle de production de dizaines de milliards de paramètres sur les GPU NVIDIA, à l'aide du cadre d'accélération d'inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7 fois des jetons générés par seconde pour un décodage gourmand. Ces résultats de référence indiquent que cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent rencontrer, tout en utilisant moins de GPU et en consommant moins d'énergie.

“LLMs are increasingly being used to power production applications, and improving inference efficiency can both impact computational costs and reduce latency for users,” Apple’s machine learning researchers conclude. “With ReDrafter’s novel approach to speculative decoding integrated into the NVIDIA TensorRT-LLM framework, developers can now benefit from faster token generation on NVIDIA GPUs for their production LLM applications.”

« Les LLM sont de plus en plus utilisés pour alimenter les applications de production, et l'amélioration de l'efficacité de l'inférence peut à la fois avoir un impact sur les coûts de calcul et réduire la latence pour les utilisateurs », concluent les chercheurs en apprentissage automatique d'Apple. « Grâce à la nouvelle approche de ReDrafter en matière de décodage spéculatif intégrée au framework NVIDIA TensorRT-LLM, les développeurs peuvent désormais bénéficier d'une génération de jetons plus rapide sur les GPU NVIDIA pour leurs applications LLM de production. »

You can learn more about this work on Apple’s website and in a blog post on NVIDIA’s website.

Vous pouvez en savoir plus sur ce travail sur le site Web d'Apple et dans un article de blog sur le site Web de NVIDIA.

Source primaire：9to5mac

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Sep 20, 2025

Plus