![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Présentation de l'approche de la chaîne des experts (COE): un nouveau paradigme pour les réseaux neuronaux clairsemés
Mar 04, 2025 at 01:57 pm
Les modèles de grandes langues ont considérablement avancé notre compréhension de l'intelligence artificielle, mais la mise à l'échelle de ces modèles reste efficacement difficile.
Large language models (LLMs) have revolutionized our understanding of artificial intelligence (AI), yet scaling these models efficiently remains a critical challenge. Traditional Mixture-of-Experts (MoE) architectures are designed to activate only a subset of experts per token in order to economize on computation. However, this design leads to two main issues. Firstly, experts process tokens in complete isolation—each expert performs its task without any cross-communication with others, which may limit the model’s ability to integrate diverse perspectives during processing. Secondly, although MoE models employ a sparse activation pattern, they still require considerable memory. This is because the overall parameter count is high, even if only a few experts are actively used at any given time. These observations suggest that while MoE models are a step forward in scalability, their inherent design may limit both performance and resource efficiency.
Les grands modèles de langage (LLM) ont révolutionné notre compréhension de l'intelligence artificielle (IA), mais la mise à l'échelle de ces modèles reste efficacement un défi critique. Les architectures traditionnelles du mélange de mélange (MOE) sont conçues pour activer uniquement un sous-ensemble d'experts par jeton afin d'économiser sur le calcul. Cependant, cette conception mène à deux problèmes principaux. Premièrement, les experts traitent les jetons en isolement complet - chaque expert effectue sa tâche sans aucune communication transversale avec d'autres, ce qui peut limiter la capacité du modèle à intégrer diverses perspectives pendant le traitement. Deuxièmement, bien que les modèles MOE utilisent un modèle d'activation clairsemé, ils nécessitent toujours une mémoire considérable. En effet, le nombre global de paramètres est élevé, même si seuls quelques experts sont activement utilisés à tout moment. Ces observations suggèrent que si les modèles MOE sont un pas en avant dans l'évolutivité, leur conception inhérente peut limiter les performances et l'efficacité des ressources.
Chain-of-Experts (CoE)
Chaîne-de-experts (COE)
Chain-of-Experts (CoE) offers a fresh perspective on MoE architectures by introducing a mechanism for sequential communication among experts. Unlike the independent processing seen in traditional MoE models, CoE allows tokens to be processed in a series of iterations within each layer. In this arrangement, the output of one expert serves as the input for the next, creating a communicative chain that enables experts to build upon one another’s work. This sequential interaction does not simply stack layers; it facilitates a more integrated approach to token processing, where each expert refines the token’s meaning based on previous outputs. The goal is to use memory more efficiently.
La chaîne-of-Experts (COE) offre une nouvelle perspective sur les architectures MOE en introduisant un mécanisme de communication séquentielle entre les experts. Contrairement au traitement indépendant observé dans les modèles MOE traditionnels, COE permet de traiter les jetons dans une série d'itérations dans chaque couche. Dans cet arrangement, la sortie d'un expert sert de contribution à la suivante, créant une chaîne de communication qui permet aux experts de s'appuyer sur le travail de l'autre. Cette interaction séquentielle ne cache pas simplement les couches; Il facilite une approche plus intégrée du traitement des jetons, où chaque expert affine la signification du jeton en fonction des sorties précédentes. L'objectif est d'utiliser la mémoire plus efficacement.
Technical Details and Benefits
Détails techniques et avantages sociaux
At the heart of the CoE method is an iterative process that redefines how experts interact. For instance, consider a configuration described as CoE-2(4/64): the model operates with two iterations per token, with four experts selected from a pool of 64 at each cycle. This contrasts with traditional MoE, which uses a single pass through a pre-selected group of experts.
Au cœur de la méthode COE se trouve un processus itératif qui redéfinit comment les experts interagissent. Par exemple, considérons une configuration décrite comme COE-2 (4/64): le modèle fonctionne avec deux itérations par jeton, avec quatre experts sélectionnés parmi un pool de 64 à chaque cycle. Cela contraste avec le MOE traditionnel, qui utilise un seul passage à travers un groupe d'experts présélectionné.
Another key technical element in CoE is the independent gating mechanism. In conventional MoE models, the gating function decides which experts should process a token, and these decisions are made once per token per layer. However, CoE takes this a step further by allowing each expert’s gating decision to be made independently during each iteration. This flexibility encourages a form of specialization, as an expert can adjust its processing based on the information received from earlier iterations.
Un autre élément technique clé de COE est le mécanisme de déclenchement indépendant. Dans les modèles MOE conventionnels, la fonction de déclenchement décide quels experts devraient traiter un jeton, et ces décisions sont prises une fois par jeton par couche. Cependant, Coe va plus loin en permettant à la décision de déclenchement de chaque expert d'être prise indépendamment pendant chaque itération. Cette flexibilité encourage une forme de spécialisation, car un expert peut ajuster son traitement en fonction des informations reçues des itérations antérieures.
Furthermore, the use of inner residual connections in CoE enhances the model. Instead of simply adding the original token back after the entire sequence of processing (an outer residual connection), CoE integrates residual connections within each iteration. This design helps to maintain the integrity of the token’s information while allowing for incremental improvements at every step.
De plus, l'utilisation de connexions résiduelles intérieures dans le COE améliore le modèle. Au lieu d'ajouter simplement le jeton d'origine après toute la séquence de traitement (une connexion résiduelle externe), COE intègre des connexions résiduelles dans chaque itération. Cette conception aide à maintenir l'intégrité des informations du jeton tout en permettant des améliorations progressives à chaque étape.
These technical innovations combine to create a model that aims to retain performance with fewer resources and provides a more nuanced processing pathway, which could be valuable for tasks requiring layered reasoning.
Ces innovations techniques se combinent pour créer un modèle qui vise à conserver les performances avec moins de ressources et fournit une voie de traitement plus nuancée, ce qui pourrait être utile pour les tâches nécessitant un raisonnement en couches.
Experimental Results and Insights
Résultats expérimentaux et idées
Preliminary experiments, such as pretraining on math-related tasks, show promise for the Chain-of-Experts method. In a configuration denoted as CoE-2(4/64), two iterations of four experts from a pool of 64 were used in each layer. Compared with traditional MoE operating under the same computational constraints, CoE-2(4/64) achieved a lower validation loss (1.12 vs. 1.20) without any increase in memory or computational cost.
Les expériences préliminaires, telles que la pré-entraînement sur les tâches liées aux mathématiques, sont prometteuses pour la méthode de la chaîne des experts. Dans une configuration indiquée COE-2 (4/64), deux itérations de quatre experts d'un pool de 64 ont été utilisées dans chaque couche. Comparé au MOE traditionnel opérant sous les mêmes contraintes de calcul, le COE-2 (4/64) a réalisé une perte de validation plus faible (1,12 contre 1,20) sans aucune augmentation de la mémoire ou du coût de calcul.
The researchers also varied the configurations of Chain-of-Experts and compared them with traditional Mixture-of-Experts (MoE) models. For example, they tested CoE-2(4/64), CoE-1(8/64), and MoE(8) models, all operating within similar computational and memory footprints. Their findings showed that increasing the iteration count in Chain-of-Experts yielded benefits comparable to or even better than increasing the number of experts selected in a single pass. Even when the models were deployed on the same hardware and subjected to the same computational constraints, Chain-of-Experts demonstrated an advantage in terms of both performance and resource utilization.
Les chercheurs ont également varié les configurations des chaînes de réseaux et les ont comparées avec des modèles traditionnels de mélange de mélange (MOE). Par exemple, ils ont testé les modèles COE-2 (4/64), COE-1 (8/64) et MOE (8), tous fonctionnant dans des empreintes de calcul et de mémoire similaires. Leurs résultats ont montré que l'augmentation du nombre d'itération dans la chaîne d'Experts a donné des avantages comparables ou même mieux que d'augmenter le nombre d'experts sélectionnés en un seul passage. Même lorsque les modèles ont été déployés sur le même matériel et soumis aux mêmes contraintes de calcul, la chaîne d'Experts a démontré un avantage en termes de performances et d'utilisation des ressources.
In one experiment, a single layer of MoE with eight experts was compared with two layers of Chain-of-Experts, each selecting four experts. Despite having fewer experts in each layer, Chain-of-Experts achieved better performance. Moreover, when varying the experts' capacity (output dimension) while keeping the total parameters constant, Chain-of-Experts configurations showed up to an 18% reduction in memory usage while realizing similar or slightly better performance.
Dans une expérience, une seule couche de MOE avec huit experts a été comparée à deux couches de chaîne d'Experts, sélectionnant chacune quatre experts. Malgré moins d'experts dans chaque couche, la chaîne d'Experts a réalisé de meilleures performances. De plus, lors de la variation de la capacité des experts (dimension de sortie) tout en gardant les paramètres totaux constants, les configurations de chaîne de chair des experts se sont révélées à une réduction de 18% de l'utilisation de la mémoire tout en réalisant des performances similaires ou légèrement meilleures.
Another key finding was the dramatic increase in the number of possible expert combinations. With two iterations of four experts from a pool of 64, there were 3.8 x 10¹⁰⁴ different expert combinations in a single layer of Chain-of-Experts. In contrast, a single layer of MoE with eight experts had only 2.2 x 10⁴² combinations
Une autre découverte clé a été l'augmentation spectaculaire du nombre de combinaisons d'experts possibles. Avec deux itérations de quatre experts d'un pool de 64 ans, il y avait 3,8 x 10½ combinaisons d'experts différentes dans une seule couche de chaîne-de-experts. En revanche, une seule couche de MOE avec huit experts n'avait que 2,2 x 10⁴² de combinaisons
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
-
-
-
-
-
-
-
-
- La Réserve fédérale américaine a retiré les directives de crypto pour les banques américaines, une décision qui pourrait bénéficier à RLUSD Stablecoin et XRP de RLUSD
- Apr 25, 2025 at 05:40 pm
- La valeur XRP se négocie aujourd'hui à 2,19 $ avec une baisse de 2,7% en 24 heures. Cet Altcoin connaît des mouvements de prix saccadés après que le récent rallye a bloqué une fois que l'Altcoin a atteint la barrière de 2,30 $.