![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Apprentissage des concepts derrière les mots au lieu de simplement prédire le jeton suivant
Jun 12, 2025 at 01:32 pm
Des efforts comme Cocomix (Jihoon et al., 2025) ¹ par Meta ont fait de l'apprentissage conceptuel, c'est-à-dire des concepts d'apprentissage derrière des mots au lieu de simplement prédire le jeton suivant une réalité
In the dynamic sphere of artificial intelligence, a persistent pursuit has been the development of language models capable not only of syntactic analysis but also of semantic comprehension, enabling them to engage in conversations on a conceptual level. This capability, often termed "conceptual learning," stands in contrast to the shallower analysis that focuses on predicting the next token in a sequence.
Dans la sphère dynamique de l'intelligence artificielle, une poursuite persistante a été le développement de modèles linguistiques capables non seulement d'une analyse syntaxique mais aussi d'une compréhension sémantique, leur permettant de s'engager dans des conversations à un niveau conceptuel. Cette capacité, souvent appelée «apprentissage conceptuel», contraste avec l'analyse moins profonde qui se concentre sur la prédiction du jeton suivant dans une séquence.
While efforts like CoCoMix (Jihoon et al., 2025)¹ by Meta have brought us closer to this goal, introducing models that are remarkably steerable and interpretable, another core question arises. Even a conceptually brilliant model could struggle with nuanced or factual recall challenges after training, during actual deployment.
Alors que des efforts comme Cocomix (Jihoon et al., 2025) ¹ par Meta nous ont rapproché de cet objectif, l'introduction de modèles qui sont remarquablement orientables et interprétables, une autre question centrale se pose. Même un modèle conceptuellement brillant pourrait lutter avec des défis de rappel nuancé ou factuels après la formation, pendant le déploiement réel.
Imagine asking a seemingly simple question like, “Earlier in our 2-million-token conversation, where did we discuss Pinocchio’s famously growing nose?” No matter how conceptually capable the LLM is, it cannot answer this simple question if the answer lies outside its context window.
Imaginez poser une question apparemment simple comme: «Plus tôt dans notre conversation de 2 millions de personnes, où avons-nous discuté du nez de la croissance de Pinocchio?» Peu importe à quel point le LLM est conceptuellement capable, il ne peut pas répondre à cette simple question si la réponse est en dehors de sa fenêtre de contexte.
But this is precisely the kind of adaptability that humans effortlessly display. We can engage in a conversation about 19th-century Impressionist art, quickly recall a story from earlier in the day, and then seamlessly transition to discussing the best route to avoid traffic. A human guide could quickly glance at a map and suggest a clever alley shortcut, something a GPS system would struggle with despite knowing the shortest path.
Mais c'est précisément le type d'adaptabilité que les humains affichent sans effort. Nous pouvons nous engager dans une conversation sur l'art impressionniste du XIXe siècle, rappeler rapidement une histoire de plus tôt dans la journée, puis passer de manière transparente vers la meilleure voie pour éviter le trafic. Un guide humain pourrait rapidement jeter un coup d'œil sur une carte et suggérer un raccourci de ruelle intelligente, quelque chose avec lequel un système GPS aurait du mal malgré le fait de connaître le chemin le plus court.
This ability to integrate new information and experiences into an ongoing narrative, adjusting plans and adapting to unexpected events, is crucial for meaningful communication and interaction with the world around us.
Cette capacité à intégrer de nouvelles informations et expériences dans un récit en cours, ajustant les plans et s'adaptant à des événements inattendus, est crucial pour une communication et une interaction significatives avec le monde qui nous entoure.
Now, a team of researchers at Google, in collaboration with researchers from Stanford University and the University of California, Irvine, has taken a significant step toward equipping large language models with this adaptable “memory” or performance boost precisely when it counts—during inference. Their findings are published in the journal Patterns.
Maintenant, une équipe de chercheurs de Google, en collaboration avec des chercheurs de l'Université de Stanford et de l'Université de Californie à Irvine, a franchi une étape significative vers l'équipement de modèles de grande langue avec cette «mémoire» adaptable ou une augmentation des performances précisément lorsqu'elle compte - lors de l'inférence. Leurs résultats sont publiés dans les modèles de revues.
Their research builds upon the groundbreaking work in introducing the Transformer architecture (Vaswani et al., 2017)², which quickly became ubiquitous in the modern AI landscape.
Leurs recherches s'appuient sur le travail révolutionnaire dans l'introduction de l'architecture du transformateur (Vaswani et al., 2017) ², qui est rapidement devenu omniprésent dans le paysage de l'IA moderne.
From the breakout success of Transformers and the surprising results of applying attention to various domains—vision tasks with Transformers (Dosovitskiy et al., 2020)³, time series forecasting with Transformers (Zerveas et al., 2021)⁴, and the remarkable performance of Transformers in natural language processing (Rogers et al., 2021)⁵—the researchers went deeper.
Dès le succès en petits groupes de Transformers et les résultats surprenants de l'application de l'attention à divers domaines - des tâches de vision avec Transformers (Dosovitskiy et al., 2020),, les prévisions de séries chronologiques avec Transformers (Zerveas et al., 2021) ⁴, et les performances remarquables des transformateurs dans le traitement du langage naturel (Rogers et al.
As the reliance on large models deepened and compute budgets expanded, even this “do it all” architecture began to show its limits, and so began the push to stretch its capabilities even further.
Alors que la dépendance à l'égard des grands modèles s'approfondissait et que les budgets de calcul se sont élargies, même cette architecture «Do It It» a commencé à montrer ses limites, et a donc commencé à étendre ses capacités encore plus loin.
The bottleneck was attention’s ‘everyone-talks-to-everyone’ approach. Brilliantly efficient but quadratically expensive—imagine a room of a million people, where each person must remember every conversation with everyone. This restricted Transformers to a narrow “working memory,” struggling with the “long-term recall” needed for understanding vast documents, as early information simply faded away.
Le goulot d'étranglement était l'approche «tout le monde des choses à tout le monde». Brillamment efficace mais quadratiquement cher - imaginez une pièce d'un million de personnes, où chaque personne doit se souvenir de chaque conversation avec tout le monde. Ces transformateurs restreints en une «mémoire de travail» étroite, aux prises avec le «rappel à long terme» nécessaire pour comprendre de vastes documents, car les informations précoces se sont simplement évanouies.
Moreover, vanilla transformers faced another fundamental hurdle—a lack of adaptability after training. While they excelled at applying their vast pre-trained knowledge to predict the next token, a process of sophisticated reasoning and prediction, this was not the same as true learning.
De plus, Vanilla Transformers a été confronté à un autre obstacle fondamental - un manque d'adaptabilité après l'entraînement. Bien qu'ils aient excellé à appliquer leurs vastes connaissances pré-formées pour prédire le jeton suivant, un processus de raisonnement et de prédiction sophistiqué, ce n'était pas la même chose que le véritable apprentissage.
Like Google Maps, which quickly finds the shortest path but then wants you to drive through barricades because of ongoing construction, despite a human guide immediately suggesting a simple alley shortcut, transformers struggled to integrate new information into their existing knowledge.
Comme Google Maps, qui trouve rapidement le chemin le plus court, mais veut ensuite que vous parcouriez les barricades en raison de la construction en cours, malgré un guide humain suggérant immédiatement un simple raccourci de ruelle, Transformers a eu du mal à intégrer de nouvelles informations dans leurs connaissances existantes.
This inability to “learn on the fly” from the data they are currently processing, adjusting their strategies and memories, represents a critical limitation for tasks requiring continuous adaptation or memory of novel experiences beyond the training set.
Cette incapacité à «apprendre à la volée» à partir des données qu'ils traitent actuellement, ajustant leurs stratégies et leurs souvenirs, représente une limitation critique pour les tâches nécessitant une adaptation continue ou une mémoire de nouvelles expériences au-delà de l'ensemble de formation.
Instead of focusing narrowly on one limitation, the researchers took a broader perspective: how do intelligent systems, like the human brain, manage memory and adapt to new situations? It’s not about having one massive, ever-accessible memory; it’s a more flexible setup, where different components coordinate to handle different kinds of information and experiences.
Au lieu de se concentrer étroitement sur une limitation, les chercheurs ont pris une perspective plus large: comment les systèmes intelligents, comme le cerveau humain, gèrent-ils la mémoire et s'adaptent-ils à de nouvelles situations? Il ne s'agit pas d'avoir une mémoire massive et toujours accessible; C'est une configuration plus flexible, où différents composants se coordonnent pour gérer différents types d'informations et d'expériences.
The Titans architecture (Behrouz et al., 2025)⁶, named for the mythological beings known for their wisdom and adaptability, embraces this, built not around a single, monolithic attention block but around a cooperative team of specialized memory systems.
L'architecture des Titans (Behrouz et al., 2025) ⁶, du nom des êtres mythologiques connus pour leur sagesse et leur adaptabilité, l'embrasse, non pas autour d'un seul bloc d'attention monolithique mais autour d'une équipe coopérative de systèmes de mémoire spécialisés.
Each memory module in Titans plays a crucial role in understanding and responding to the task at hand. The spatial memory module (PM) stores a set of parameters that are prepended to the input sequence. These parameters are learned during training and act like a “Holy Grail” for the model to adhere to.
Chaque module de mémoire des Titans joue un rôle crucial dans la compréhension et la réponse à la tâche à accomplir. Le module de mémoire spatiale (PM) stocke un ensemble de paramètres qui sont appassés à la séquence d'entrée. Ces paramètres sont appris pendant la formation et agissent comme un «Saint Graal» pour que le modèle adhère.
The spatial memory module (PM) stores a set of parameters that are prepended to the input sequence. These parameters are learned during training and act like a “Holy Grail” for the model to adhere to.
Le module de mémoire spatiale (PM) stocke un ensemble de paramètres qui sont appassés à la séquence d'entrée. Ces paramètres sont appris pendant la formation et agissent comme un «Saint Graal» pour que le modèle adhère.
The researchers chose to implement the LMM using a simple multi-layer perceptron (MLP) network, which takes the output of the standard self-attention module (STM) at time step t, denoted as yt, as input.
Les chercheurs ont choisi de mettre en œuvre le LMM à l'aide d'un réseau de perceptron multicouche simple (MLP), qui prend la sortie du module d'auto-attention standard (STM) au pas de temps T, désigné YT, comme entrée.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
-
-
-
- Les détenteurs de Dogecoin (DOGE) atteignent près de 8 millions, dépassant XRP et USDC
- Jun 14, 2025 at 06:35 pm
- Dogecoin fait à nouveau les gros titres, mais cette fois, il ne s'agit pas de mouvement des prix ou de buzz sur les réseaux sociaux. Au lieu de cela, c'est le nombre de personnes qui tiennent Doge qui attire l'attention.
-
-
-
-
- WEB3 AI (WAI) offre un retour sur investissement de 1747% et une réalité: pourquoi il peut surpasser Eth & Sui en 2025
- Jun 14, 2025 at 06:25 pm
- Découvrez pourquoi Web3 AI (WAI) gagne du terrain en tant qu'investissement cryptographique plus sûr et plus intelligent par rapport à Ethereum (ETH) et SUI (SUI), avec des outils de sécurité avancés et une forte croissance de la prévente.
-
- Robert Kiyosaki: la «guerre civile» a commencé; Bitcoin combat le «vol» financier
- Jun 14, 2025 at 06:20 pm
- L'auteur et commentateur financier de renom Robert Kiyosaki a émis un avertissement frappant, déclarant que "la guerre civile a commencé" et prédire un "été long, chaud et violent" dans le monde.