$122043.751358 USD

1.59%

ethereum

$4482.352123 USD

-0.27%

xrp

$3.029604 USD

0.55%

tether

$1.000659 USD

0.02%

bnb

$1173.363783 USD

7.69%

solana

$230.674955 USD

-0.37%

usd-coin

$0.999807 USD

0.02%

dogecoin

$0.255543 USD

-0.80%

tron

$0.342482 USD

-0.12%

cardano

$0.857587 USD

-0.27%

hyperliquid

$48.817010 USD

-2.11%

chainlink

$22.270130 USD

-1.48%

ethena-usde

$1.000173 USD

-0.05%

avalanche

$31.216562 USD

2.25%

stellar

$0.404341 USD

0.39%

Nachrichtenartikel zu Kryptowährungen

Sowohl Weka als auch riesige Daten zielen darauf ab, das Problem der KI -Inferenzkontextgeschichte zu lösen, die das GPU -Gedächtnis überfließt und die Reaktionsfähigkeit des großen Sprachmodells (LLM) verlangsamt.

Feb 27, 2025 at 12:08 am

Jeff Denworth, Mitbegründer von Data-Mitbegründer, schreibt: „Wenn eine Chat- oder Agenten-KI-Sitzung über mehrere Eingabeaufforderungen und Antworten hinweg wächst, wird die Geschichte, die erstellt wird, als Kontext bezeichnet.

Both WEKA and VAST Data aim to solve the problem of AI inferencing context history overflowing GPU memory and slowing down large language model (LLM) responsiveness.

As a chat or agentic AI session grows in length across multiple prompts and responses, the history that is created is known as context. Context is created and stored using self-attention mechanisms that store session history as a series of vectorized tokens (stored as keys and values) that consume considerable amounts of GPU and CPU memory, often leveraging key-value caches.

Wenn eine Chat- oder Agenten -KI -Sitzung über mehrere Eingabeaufforderungen und Antworten verlängert wird, wird der geschaffene Verlauf als Kontext bezeichnet. Der Kontext wird anhand von Selbstbewegungsmechanismen erstellt und gespeichert, die die Sitzungsverlauf als eine Reihe von vektorisierten Token (gespeicherte Tasten und Werte gespeichert) speichern, die beträchtliche Mengen an GPU- und CPU-Speicher verbrauchen und häufig Schlüsselwert-Caches nutzen.

The greater the length of the session and the richer the chat history, the larger the context that must be loaded into a GPU to serve an instance of the model. In addition, as techniques like reasoning tokens are introduced, models must process significantly longer sequences, putting additional strain on memory and compute resources.

Je größer die Länge der Sitzung und je reicher der Chat -Verlauf, desto größer ist der Kontext, der in eine GPU geladen werden muss, um eine Instanz des Modells zu dienen. Wenn Techniken wie Argumentationstoken eingeführt werden, müssen Modelle außerdem wesentlich längere Sequenzen verarbeiten, wodurch zusätzliche Belastung in den Speicher und Berechnung von Ressourcen verarbeitet werden.

A fundamental limitation in modern AI inference is the amount of memory available – GPUs process vast amounts of data in parallel, but the memory available per GPU is fixed. As models grow in complexity and require longer contexts, their memory footprint expands beyond what a single GPU can handle.

Eine grundlegende Einschränkung in der modernen KI -Inferenz ist die verfügbare Speicherspeicher - GPU -Verfahren enorme Datenmengen parallel, aber der gemäß GPU verfügbare Speicher ist festgelegt. Wenn die Modelle in Komplexität wachsen und längere Kontexte erfordern, erweitert sich ihr Speicher Fußabdruck über das hinaus, was mit einer einzelnen GPU umgehen kann.

This results in inefficiencies where GPUs are memory-starved, causing significant bottlenecks in token generation. This is a particular challenge during the decode phase of Large Language Models (LLMs), which are memory-bound, requiring fast data retrieval to process input prompts efficiently.

Dies führt zu Ineffizienzen, bei denen die GPUs Gedächtnisstärke sind, was zu erheblichen Engpässen bei der Token-Generation führt. Dies ist eine besondere Herausforderung während der Decoded-Phase von Großsprachemodellen (LLMs), die Speichergebundenen sind und schnelles Datenab Abrufen erfordert, um Eingabeaufforderungen effizient zu verarbeiten.

One of the biggest challenges emerging in inference is the impact of expanding context lengths on compute requirements.

Eine der größten Herausforderungen, die sich in Folge herausstellen, sind die Auswirkungen der Erweiterung der Kontextlängen auf die Berechnungspflicht.

To meet this challenge, WEKA has focused on speeding up token load time and VAST on being picky about which tokens to load first.

Um diese Herausforderung zu befriedigen, hat sich Weka darauf konzentriert, die Token -Ladezeit zu beschleunigen, und um wählerisch zu sein, welche Token zuerst geladen werden sollen.

Testing the Llama3.170B model, WEKA found it took about 24 seconds to load a 100,000-token prompt into a key-value (KV) cache in a prefill phase to initialize the model before any output was generated. It set out to load and apply the cache at scale, demonstrating how extending GPU memory to ultra-fast storage can dramatically improve token processing efficiency.

Weka testete das Modell von LLAMA3.170B und stellte fest, dass es ungefähr 24 Sekunden dauerte, um eine 100.000-köpfige Eingabeaufforderung in einen KV-Cache (Taste-Wert) in einer Vorauszahlungsphase zu laden, um das Modell zu initialisieren, bevor eine Ausgabe erstellt wurde. Es wurde vorgeladen, den Cache im Maßstab zu laden und anzuwenden, und zeigt, wie die Erweiterung des GPU-Speichers auf ultraschnelle Speicher die Token-Verarbeitungseffizienz drastisch verbessern kann.

The ultra-fast storage was an eight-node WEKApod with PCIe Gen 5 connectivity linked to an Nvidia DGX H100 server via Nvidia’s Quantum-2 QM9700 64-port 400 Gbps InfiniBand switches.

Der ultraschnelle Speicher war ein Wekapod mit acht Knoten mit PCIe-Gen 5-Konnektivität, der über NVIDIA Quantum-2 QM9700 64-Port 400 Gbit / s InfiniBand Switches mit einem NVIDIA DGX H100-Server verbunden war.

At the software level, WEKA’s software already has the capability to align reads and writes into GPU memory (via GDS) directly to the NIC closest to the GPU, and extract every last bit of performance by reducing unnecessary data movement and latency. The WEKApod is the icing on this cake.

Auf Softwareebene hat die Software von Weka bereits die Möglichkeit, Lese- und Schreibvorgänge in den GPU -Speicher (über GDS) direkt an die NIC, die der GPU am nächsten liegt, auszurichten, und extrahiert jedes letzte Stück Leistung, indem sie unnötige Datenbewegungen und -latenz reduziert. Der Wekapod ist das i -Tüpfelchen.

Its software already had the capability to align reads and writes into GPU memory (via GDS) directly to the NIC closest to the GPU, and extract every last bit of performance by reducing unnecessary data movement and latency. The WEKApod is the icing on this cake.

Seine Software hatte bereits die Möglichkeit, Lese- und Schreibungen in den GPU -Speicher (über GDS) direkt an die NIC, die der GPU am nächsten liegt, auszurichten, und extrahiert jedes letzte Stück Leistung, indem sie unnötige Datenbewegungen und -latenz reduzierte. Der Wekapod ist das i -Tüpfelchen.

As the context length grows, machine memory consumption scales linearly. Long-sequence chat or agentic sessions can put pressure on system resources and cause memory overflow.

Wenn die Kontextlänge wächst, skaliert Maschinenspeicher linear. Langzeit-Chat- oder Agentensitzungen können Druck auf die Systemressourcen ausüben und Speicherüberlauf verursachen.

Cache space is limited to what can be held in a GPU machine. AI services with multiple tenants (that periodically sign in and out of AI applications) need to constantly evict non-active session data from GPU and CPU cache to make room for whatever is happening at the moment.

Der Cache -Raum ist auf das beschränkt, was in einer GPU -Maschine gehalten werden kann. KI-Dienste mit mehreren Mietern (die sich regelmäßig an und aus KI-Anwendungen anmelden) müssen ständig nichtaktive Sitzungsdaten von GPU- und CPU-Cache räumen, um Platz für alles zu schaffen, was derzeit geschieht.

Reloading the cache from public cloud object storage is so long that several leading AI-as-a-service shops choose to simply recalculate an entire prompt history rather than grab all of the context and attention data from object storage.

Das Nachladen des Cache aus dem Speicher der öffentlichen Cloud-Objekte ist so lang, dass mehrere führende AI-AS-A-Service-Läden sich dafür entscheiden, einen gesamten schnellen Verlauf einfach neu zu berechnen, anstatt den gesamten Kontext- und Aufmerksamkeitsdaten aus dem Objektspeicher zu erfassen.

VAST wants to make scalable, multi-tenant inference fast, more cost-efficient and global. It has developed a Linux-based agent that runs in your GPU servers and provides a new data presentation layer to AI frameworks. This is the VUA agent, VAST Undivided Attention. Each GPU server’s VUA is hooked up to a shared VAST RDMA-attached NVMe storage system. When tokens are not found in a GPU Server’s KV cache, they are reloaded from the VAST storage via the GPUDirect protocol providing what Denworth calls an infinite memory space for context data.

Wege will skalierbar, meriantes Inferenz schnell, kostengünstiger und globaler machen. Es hat einen Linux-basierten Agenten entwickelt, der auf Ihren GPU-Servern ausgeführt wird und eine neue Datenpräsentationsschicht für AI-Frameworks bietet. Dies ist der VUA -Agent, eine große ungeteilte Aufmerksamkeit. Die VUA jedes GPU-Servers ist an ein gemeinsames NVME-Speichersystem von RDMA-angehalten. Wenn Token nicht im KV -Cache eines GPU -Servers gefunden werden, werden sie über das GPUDIRECT -Protokoll aus dem riesigen Speicher geladen, das das, was Denworth einen unendlichen Speicherplatz für Kontextdaten nennt, nennt.

VUA has the ability to intelligently store and serve prefixes, which are the initial token sequence needed to provide the model with context.

VUA hat die Möglichkeit, Präfixe intelligent zu speichern und zu bedienen, nämlich die anfängliche Token -Sequenz, die für die Bereitstellung des Modells mit Kontext erforderlich ist.

As each token in a sequence attends to all previous tokens via self-attention, it produces key and value vectors for every position. During tasks like text generation, the model processes one token at a time after an initial input (the prompt). The KV cache stores these vectors for all tokens processed so far, so the model only computes keys and values for the new token and retrieves the rest from the cache.

Da jedes Token in einer Sequenz über die Selbstbekämpfung alle vorherigen Token kümmert, erzeugt es für jede Position Schlüssel- und Wertvektoren. Bei Aufgaben wie der Textgenerierung verarbeitet das Modell nach einer ersten Eingabe (die Eingabeaufforderung) jeweils ein Token. Der KV -Cache speichert diese Vektoren für alle bisher verarbeiteten Token, sodass das Modell nur Schlüssel und Werte für das neue Token berechnet und den Rest vom Cache abruft.

VUA can load prefixes by priority and policy so that, for example, the longest prefixes associated with a sequence can be served first to a GPU machine, getting the session underway faster. Prefixes can also be stored to help multiple related prompts share similar context within a GPU machine, thus reducing the number of cache

VUA kann Präfixe nach Priorität und Richtlinie laden, sodass beispielsweise die am längsten mit einer Sequenz verbundenen Präfixe zuerst an eine GPU -Maschine zugestellt werden können, wodurch die Sitzung schneller abgerechnet wird. Präfixe können auch gespeichert werden, um mehrere verwandte Eingabeaufforderungen in einer GPU -Maschine einen ähnlichen Kontext zu teilen, wodurch die Anzahl der Cache verringert wird

Originalquelle：blocksandfiles

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Oct 04, 2025

Mehr