Marktkapitalisierung: $2.989T 2.570%
Volumen (24h): $103.1931B 5.850%
  • Marktkapitalisierung: $2.989T 2.570%
  • Volumen (24h): $103.1931B 5.850%
  • Angst- und Gier-Index:
  • Marktkapitalisierung: $2.989T 2.570%
Kryptos
Themen
Cryptospedia
Nachricht
Cryptostopics
Videos
Top -Nachrichten
Kryptos
Themen
Cryptospedia
Nachricht
Cryptostopics
Videos
bitcoin
bitcoin

$93113.538616 USD

-0.11%

ethereum
ethereum

$1748.590950 USD

-2.15%

tether
tether

$1.000392 USD

0.02%

xrp
xrp

$2.177851 USD

-1.16%

bnb
bnb

$600.317897 USD

-0.84%

solana
solana

$151.339663 USD

1.47%

usd-coin
usd-coin

$0.999927 USD

0.01%

dogecoin
dogecoin

$0.179240 USD

2.45%

cardano
cardano

$0.707230 USD

2.73%

tron
tron

$0.243466 USD

-0.61%

sui
sui

$3.323843 USD

10.76%

chainlink
chainlink

$14.828095 USD

0.41%

avalanche
avalanche

$21.905207 USD

-0.82%

stellar
stellar

$0.275988 USD

4.91%

unus-sed-leo
unus-sed-leo

$9.206268 USD

0.44%

Nachrichtenartikel zu Kryptowährungen

Einführung des Ansatzes der Experten (COE): Ein neues Paradigma für spärliche neuronale Netze

Mar 04, 2025 at 01:57 pm

Großsprachenmodelle haben unser Verständnis der künstlichen Intelligenz erheblich vorangetrieben und diese Modelle doch die Skalierung effizient anspruchsvoll.

Einführung des Ansatzes der Experten (COE): Ein neues Paradigma für spärliche neuronale Netze

Large language models (LLMs) have revolutionized our understanding of artificial intelligence (AI), yet scaling these models efficiently remains a critical challenge. Traditional Mixture-of-Experts (MoE) architectures are designed to activate only a subset of experts per token in order to economize on computation. However, this design leads to two main issues. Firstly, experts process tokens in complete isolation—each expert performs its task without any cross-communication with others, which may limit the model’s ability to integrate diverse perspectives during processing. Secondly, although MoE models employ a sparse activation pattern, they still require considerable memory. This is because the overall parameter count is high, even if only a few experts are actively used at any given time. These observations suggest that while MoE models are a step forward in scalability, their inherent design may limit both performance and resource efficiency.

Großsprachenmodelle (LLMs) haben unser Verständnis der künstlichen Intelligenz (KI) revolutioniert und diese Modelle jedoch effizient eine kritische Herausforderung. Die MOE-Architekturen (Traditionelle Experten) sind so konzipiert, dass sie nur eine Untergruppe von Experten pro Token aktivieren, um die Berechnung zu sparen. Dieses Design führt jedoch zu zwei Hauptproblemen. Erstens verarbeiten Experten Token in völliger Isolation-Each-Experte führt seine Aufgabe ohne Kreuzkommunikation mit anderen aus, was die Fähigkeit des Modells, verschiedene Perspektiven während der Verarbeitung zu integrieren, einschränken kann. Zweitens erfordern MOE -Modelle, obwohl sie ein spärliches Aktivierungsmuster verwenden, dennoch ein beträchtlicher Gedächtnis. Dies liegt daran, dass die Gesamtanzahl der Parameter hoch ist, auch wenn zu einem bestimmten Zeitpunkt nur wenige Experten aktiv verwendet werden. Diese Beobachtungen legen nahe, dass MOE -Modelle zwar ein Schritt nach vorne in der Skalierbarkeit sind, ihr inhärentes Design jedoch sowohl die Leistung als auch die Ressourceneffizienz einschränken kann.

Chain-of-Experts (CoE)

Expertenkette (COE)

Chain-of-Experts (CoE) offers a fresh perspective on MoE architectures by introducing a mechanism for sequential communication among experts. Unlike the independent processing seen in traditional MoE models, CoE allows tokens to be processed in a series of iterations within each layer. In this arrangement, the output of one expert serves as the input for the next, creating a communicative chain that enables experts to build upon one another’s work. This sequential interaction does not simply stack layers; it facilitates a more integrated approach to token processing, where each expert refines the token’s meaning based on previous outputs. The goal is to use memory more efficiently.

Die Expertenkette (COE) bietet eine neue Perspektive auf MOE-Architekturen, indem ein Mechanismus für sequentielle Kommunikation zwischen Experten eingeführt wird. Im Gegensatz zur unabhängigen Verarbeitung, die in herkömmlichen MOE -Modellen zu sehen ist, ermöglicht COE die Verarbeitung von Token in einer Reihe von Iterationen in jeder Schicht. In dieser Vereinbarung dient die Ausgabe eines Experten als Input für den nächsten und schafft eine kommunikative Kette, die es Experten ermöglicht, auf der Arbeit des anderen aufzubauen. Diese sequentielle Interaktion stapelt nicht einfach Schichten; Es erleichtert einen integrierten Ansatz zur Token -Verarbeitung, bei dem jeder Experte die Bedeutung des Tokens auf der Grundlage früherer Ausgaben verfeinert. Ziel ist es, den Speicher effizienter zu verwenden.

Technical Details and Benefits

Technische Details und Vorteile

At the heart of the CoE method is an iterative process that redefines how experts interact. For instance, consider a configuration described as CoE-2(4/64): the model operates with two iterations per token, with four experts selected from a pool of 64 at each cycle. This contrasts with traditional MoE, which uses a single pass through a pre-selected group of experts.

Im Zentrum der COE -Methode steht ein iterativer Prozess, der die Interaktion von Experten neu definiert. Betrachten Sie beispielsweise eine als COE-2 (4/64) beschriebene Konfiguration: Das Modell arbeitet mit zwei Iterationen pro Token, wobei vier Experten aus einem Pool von 64 in jedem Zyklus ausgewählt werden. Dies steht im Gegensatz zu traditioneller MOE, das einen einzigen Pass durch eine vorgewählte Gruppe von Experten verwendet.

Another key technical element in CoE is the independent gating mechanism. In conventional MoE models, the gating function decides which experts should process a token, and these decisions are made once per token per layer. However, CoE takes this a step further by allowing each expert’s gating decision to be made independently during each iteration. This flexibility encourages a form of specialization, as an expert can adjust its processing based on the information received from earlier iterations.

Ein weiteres wichtiges technisches Element in COE ist der unabhängige Gating -Mechanismus. In herkömmlichen MOE -Modellen entscheidet die Gating -Funktion, welche Experten ein Token verarbeiten sollten, und diese Entscheidungen werden einmal pro Token pro Schicht getroffen. COE geht jedoch noch einen Schritt weiter, indem er die Entscheidung jedes Experten während jeder Iteration unabhängig getroffen werden kann. Diese Flexibilität fördert eine Spezialisierungsform, da ein Experte seine Verarbeitung anhand der von früheren Iterationen erhaltenen Informationen anpassen kann.

Furthermore, the use of inner residual connections in CoE enhances the model. Instead of simply adding the original token back after the entire sequence of processing (an outer residual connection), CoE integrates residual connections within each iteration. This design helps to maintain the integrity of the token’s information while allowing for incremental improvements at every step.

Darüber hinaus verbessert die Verwendung innerer Restverbindungen in COE das Modell. Anstatt einfach das ursprüngliche Token nach der gesamten Abfolge der Verarbeitung (einer äußeren Restverbindung) zurückzuführen, integriert COE Restverbindungen innerhalb jeder Iteration. Dieses Design hilft, die Integrität der Informationen des Tokens aufrechtzuerhalten und bei jedem Schritt inkrementelle Verbesserungen zu ermöglichen.

These technical innovations combine to create a model that aims to retain performance with fewer resources and provides a more nuanced processing pathway, which could be valuable for tasks requiring layered reasoning.

Diese technischen Innovationen kombinieren ein Modell, das darauf abzielt, die Leistung mit weniger Ressourcen beizubehalten, und bietet einen differenzierteren Verarbeitungsweg, der für Aufgaben, die überschichtete Argumentation erfordern, wertvoll sein.

Experimental Results and Insights

Experimentelle Ergebnisse und Erkenntnisse

Preliminary experiments, such as pretraining on math-related tasks, show promise for the Chain-of-Experts method. In a configuration denoted as CoE-2(4/64), two iterations of four experts from a pool of 64 were used in each layer. Compared with traditional MoE operating under the same computational constraints, CoE-2(4/64) achieved a lower validation loss (1.12 vs. 1.20) without any increase in memory or computational cost.

Vorläufige Experimente, wie z. B. Vorbereitungen zu mathematischen Aufgaben, sind vielversprechend für die Methode der Expertenkette. In einer als COE-2 (4/64) gekennzeichneten Konfiguration wurden in jeder Schicht zwei Iterationen von vier Experten aus einem Pool von 64 verwendet. Im Vergleich zu herkömmlichen MOE-Betrieb unter denselben Rechenbeschränkungen erreichte COE-2 (4/64) einen niedrigeren Validierungsverlust (1,12 gegenüber 1,20), ohne dass die Speicher- oder Rechenkosten erhöht wurden.

The researchers also varied the configurations of Chain-of-Experts and compared them with traditional Mixture-of-Experts (MoE) models. For example, they tested CoE-2(4/64), CoE-1(8/64), and MoE(8) models, all operating within similar computational and memory footprints. Their findings showed that increasing the iteration count in Chain-of-Experts yielded benefits comparable to or even better than increasing the number of experts selected in a single pass. Even when the models were deployed on the same hardware and subjected to the same computational constraints, Chain-of-Experts demonstrated an advantage in terms of both performance and resource utilization.

Die Forscher variierten auch die Konfigurationen der Expertenkette und verglichen sie mit herkömmlichen Modellen der Expertenmischung (MEE-OF-Experten). Zum Beispiel haben sie Modelle COE-2 (4/64), COE-1 (8/64) und MOE (8) getestet, die alle in ähnlichen Rechen- und Speicher Fußabdrücken arbeiten. Ihre Ergebnisse zeigten, dass die Erhöhung der Iterationszahl in Expertenketten Vorteile erzielte, die mit der Anzahl der in einem einzelnen Pass ausgewählten Experten vergleichbar sind oder sogar besser sind. Selbst wenn die Modelle auf derselben Hardware bereitgestellt und denselben Rechenbeschränkungen unterzogen wurden, zeigten die Expertenkette sowohl die Leistung als auch die Ressourcenauslastung einen Vorteil.

In one experiment, a single layer of MoE with eight experts was compared with two layers of Chain-of-Experts, each selecting four experts. Despite having fewer experts in each layer, Chain-of-Experts achieved better performance. Moreover, when varying the experts' capacity (output dimension) while keeping the total parameters constant, Chain-of-Experts configurations showed up to an 18% reduction in memory usage while realizing similar or slightly better performance.

In einem Experiment wurde eine einzelne MOE-Schicht mit acht Experten mit zwei Schichten von Expertenketten verglichen, die jeweils vier Experten auswählten. Obwohl es in jeder Schicht weniger Experten hatte, erreichten die Expertenkette eine bessere Leistung. Darüber hinaus zeigten sich die Kapazität der Experten (Ausgangsabmessung) bei der Konstant der Gesamtparameter, und zeigten außerdem eine Verringerung der Speicherverwendung um 18%, während sie eine ähnliche oder etwas bessere Leistung erzielte.

Another key finding was the dramatic increase in the number of possible expert combinations. With two iterations of four experts from a pool of 64, there were 3.8 x 10¹⁰⁴ different expert combinations in a single layer of Chain-of-Experts. In contrast, a single layer of MoE with eight experts had only 2.2 x 10⁴² combinations

Ein weiterer wichtiger Befund war die dramatische Zunahme der Anzahl möglicher Expertenkombinationen. Mit zwei Iterationen von vier Experten aus einem Pool von 64 gab es 3,8 x 10¹⁰⁴ verschiedene Expertenkombinationen in einer einzelnen Schicht von Expertenschichten. Im Gegensatz dazu hatte eine einzelne MOE -Schicht mit acht Experten nur 2,2 x 10⁴² Kombinationen

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Apr 26, 2025