$112587.146396 USD

-1.85%

ethereum

$4196.799053 USD

-3.32%

tether

$1.000757 USD

0.03%

xrp

$2.848934 USD

-2.53%

bnb

$991.371259 USD

-4.28%

solana

$219.129492 USD

-6.17%

usd-coin

$0.999827 USD

0.01%

dogecoin

$0.240658 USD

-3.82%

tron

$0.340257 USD

0.39%

cardano

$0.822447 USD

-5.16%

hyperliquid

$46.316869 USD

-6.95%

chainlink

$21.624745 USD

-3.35%

ethena-usde

$1.001645 USD

0.13%

avalanche

$33.431900 USD

4.90%

sui

$3.367253 USD

-4.55%

Articles d’actualité sur les crypto-monnaies

Weka et de vastes données visent à résoudre le problème de la mémoire de GPU en débordement de l'historique du contexte de l'IA et de ralentir la réactivité du modèle de langage grand (LLM).

Feb 27, 2025 at 12:08 am

Le vaste co-fondateur de données, Jeff Denworth, écrit: «À mesure qu'une session de chat ou d'activité AI se développe en longueur sur plusieurs invites et réponses, l'histoire créée est connue sous le nom de contexte.

Both WEKA and VAST Data aim to solve the problem of AI inferencing context history overflowing GPU memory and slowing down large language model (LLM) responsiveness.

Weka et de vastes données visent à résoudre le problème de la mémoire de GPU en débordement de l'historique du contexte de l'IA et de ralentir la réactivité du modèle de langage grand (LLM).

As a chat or agentic AI session grows in length across multiple prompts and responses, the history that is created is known as context. Context is created and stored using self-attention mechanisms that store session history as a series of vectorized tokens (stored as keys and values) that consume considerable amounts of GPU and CPU memory, often leveraging key-value caches.

À mesure qu'une session de chat ou d'agence AI se développe en longueur sur plusieurs invites et réponses, l'histoire créée est connue sous le nom de contexte. Le contexte est créé et stocké à l'aide de mécanismes d'auto-agencement qui stockent l'historique des sessions comme une série de jetons vectorisés (stockés sous forme de clés et de valeurs) qui consomment des quantités considérables de mémoire GPU et CPU, tirant souvent parti des caches de valeur clé.

The greater the length of the session and the richer the chat history, the larger the context that must be loaded into a GPU to serve an instance of the model. In addition, as techniques like reasoning tokens are introduced, models must process significantly longer sequences, putting additional strain on memory and compute resources.

Plus la longueur de la session est grande et plus l'historique de chat est élevé, plus le contexte qui doit être chargé dans un GPU est grand pour servir une instance du modèle. De plus, à mesure que des techniques telles que des jetons de raisonnement sont introduites, les modèles doivent traiter des séquences beaucoup plus longues, mettant une contrainte supplémentaire sur la mémoire et les ressources de calcul.

A fundamental limitation in modern AI inference is the amount of memory available – GPUs process vast amounts of data in parallel, but the memory available per GPU is fixed. As models grow in complexity and require longer contexts, their memory footprint expands beyond what a single GPU can handle.

Une limitation fondamentale de l'inférence de l'IA moderne est la quantité de mémoire disponible - les GPU procédés de grandes quantités de données en parallèle, mais la mémoire disponible par GPU est fixe. À mesure que les modèles se développent en complexité et nécessitent des contextes plus longs, leur empreinte mémoire s'étend au-delà de ce qu'un seul GPU peut gérer.

This results in inefficiencies where GPUs are memory-starved, causing significant bottlenecks in token generation. This is a particular challenge during the decode phase of Large Language Models (LLMs), which are memory-bound, requiring fast data retrieval to process input prompts efficiently.

Il en résulte des inefficacités où les GPU sont affamés de mémoire, provoquant des goulots d'étranglement importants dans la génération de jetons. Il s'agit d'un défi particulier pendant la phase de décodage des modèles de grande langue (LLMS), qui sont liés à la mémoire, nécessitant une récupération rapide des données pour traiter efficacement les invites d'entrée.

One of the biggest challenges emerging in inference is the impact of expanding context lengths on compute requirements.

L'un des plus grands défis émergeant dans l'inférence est l'impact de l'élargissement des durées de contexte sur les exigences de calcul.

To meet this challenge, WEKA has focused on speeding up token load time and VAST on being picky about which tokens to load first.

Pour relever ce défi, Weka s'est concentré sur la vitesse de chargement des jetons et est vaste sur les jetons difficiles à charger en premier.

Testing the Llama3.170B model, WEKA found it took about 24 seconds to load a 100,000-token prompt into a key-value (KV) cache in a prefill phase to initialize the model before any output was generated. It set out to load and apply the cache at scale, demonstrating how extending GPU memory to ultra-fast storage can dramatically improve token processing efficiency.

Testant le modèle LLAMA3.170b, Weka a constaté qu'il a fallu environ 24 secondes pour charger une invite de 100 000 tonnes dans un cache de valeur clé (KV) dans une phase de pré-préfusion pour initialiser le modèle avant que toute sortie ne soit générée. Il a décidé de charger et d'appliquer le cache à l'échelle, démontrant comment l'extension de la mémoire GPU à un stockage ultra-rapide peut considérablement améliorer l'efficacité de traitement des jetons.

The ultra-fast storage was an eight-node WEKApod with PCIe Gen 5 connectivity linked to an Nvidia DGX H100 server via Nvidia’s Quantum-2 QM9700 64-port 400 Gbps InfiniBand switches.

Le stockage ultra-rapide était un Wekapod à huit nœuds avec une connectivité PCIE GEN 5 liée à un serveur NVIDIA DGX H100 via les commutateurs Infiniband Quantum-2 QM9700 64 Gbps de NVIDIA.

At the software level, WEKA’s software already has the capability to align reads and writes into GPU memory (via GDS) directly to the NIC closest to the GPU, and extract every last bit of performance by reducing unnecessary data movement and latency. The WEKApod is the icing on this cake.

Au niveau du logiciel, le logiciel de Weka a déjà la capacité d'aligner des lectures et des écritures dans la mémoire du GPU (via GDS) directement au NIC le plus proche du GPU, et d'extraire chaque dernière performance en réduisant le mouvement et la latence des données inutiles. Le Wekapod est la cerise sur ce gâteau.

Its software already had the capability to align reads and writes into GPU memory (via GDS) directly to the NIC closest to the GPU, and extract every last bit of performance by reducing unnecessary data movement and latency. The WEKApod is the icing on this cake.

Son logiciel avait déjà la capacité d'aligner des lectures et des écritures dans la mémoire du GPU (via GDS) directement au NIC le plus proche du GPU, et d'extraire chaque dernière performance en réduisant le mouvement et la latence des données inutiles. Le Wekapod est la cerise sur ce gâteau.

As the context length grows, machine memory consumption scales linearly. Long-sequence chat or agentic sessions can put pressure on system resources and cause memory overflow.

À mesure que la longueur du contexte augmente, la consommation de mémoire de la machine évolue linéairement. Le chat à longue séquence ou les séances agentiques peuvent exercer une pression sur les ressources du système et provoquer un débordement de mémoire.

Cache space is limited to what can be held in a GPU machine. AI services with multiple tenants (that periodically sign in and out of AI applications) need to constantly evict non-active session data from GPU and CPU cache to make room for whatever is happening at the moment.

L'espace de cache est limité à ce qui peut être maintenu dans une machine GPU. Les services d'IA avec plusieurs locataires (qui se connectent périodiquement et hors des applications d'IA) doivent constamment expulser les données de session non actives de GPU et CPU Cache pour faire de la place pour tout ce qui se passe en ce moment.

Reloading the cache from public cloud object storage is so long that several leading AI-as-a-service shops choose to simply recalculate an entire prompt history rather than grab all of the context and attention data from object storage.

Le rechargement du cache du stockage d'objets du cloud public est si long que plusieurs magasins AI-AI-A-A-Service de premier plan choisissent de recalculer simplement une histoire rapide plutôt que de saisir toutes les données de contexte et d'attention du stockage d'objets.

VAST wants to make scalable, multi-tenant inference fast, more cost-efficient and global. It has developed a Linux-based agent that runs in your GPU servers and provides a new data presentation layer to AI frameworks. This is the VUA agent, VAST Undivided Attention. Each GPU server’s VUA is hooked up to a shared VAST RDMA-attached NVMe storage system. When tokens are not found in a GPU Server’s KV cache, they are reloaded from the VAST storage via the GPUDirect protocol providing what Denworth calls an infinite memory space for context data.

Vast veut rendre l'inférence évolutive et multi-locataire rapide, plus rentable et mondial. Il a développé un agent basé sur Linux qui s'exécute dans vos serveurs GPU et fournit une nouvelle couche de présentation de données aux cadres AI. C'est l'agent Vua, une grande attention individuelle. VUA de chaque serveur GPU est connecté à un vaste système de stockage NVME par RDMA partagé. Lorsque les jetons ne sont pas trouvés dans le cache KV d'un serveur GPU, ils sont rechargés à partir du vaste stockage via le protocole GPuDirect fournissant ce que Denworth appelle un espace mémoire infini pour les données de contexte.

VUA has the ability to intelligently store and serve prefixes, which are the initial token sequence needed to provide the model with context.

Vua a la capacité de stocker et de servir intelligemment les préfixes, qui sont la séquence de jetons initiale nécessaire pour fournir au modèle un contexte.

As each token in a sequence attends to all previous tokens via self-attention, it produces key and value vectors for every position. During tasks like text generation, the model processes one token at a time after an initial input (the prompt). The KV cache stores these vectors for all tokens processed so far, so the model only computes keys and values for the new token and retrieves the rest from the cache.

Comme chaque jeton dans une séquence s'occupe de tous les jetons précédents via l'auto-attention, il produit des vecteurs de clés et de valeur pour chaque position. Au cours des tâches comme la génération de texte, le modèle traite un jeton à la fois après une entrée initiale (l'invite). Le cache KV stocke ces vecteurs pour tous les jetons traités jusqu'à présent, donc le modèle ne calcule que les clés et les valeurs du nouveau jeton et récupère le reste du cache.

VUA can load prefixes by priority and policy so that, for example, the longest prefixes associated with a sequence can be served first to a GPU machine, getting the session underway faster. Prefixes can also be stored to help multiple related prompts share similar context within a GPU machine, thus reducing the number of cache

Vua peut charger les préfixes par priorité et politique afin que, par exemple, les préfixes les plus longs associés à une séquence puissent être servis d'abord à une machine GPU, ce qui réduit la session en cours plus rapidement. Les préfixes peuvent également être stockés pour aider plusieurs invites connexes à partager un contexte similaire dans une machine GPU, réduisant ainsi le nombre de cache

Source primaire：blocksandfiles

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Sep 23, 2025

Plus