|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
Petit modèle, récursif, apprentissage automatique : moins c'est plus ?
Oct 20, 2025 at 02:31 am
Explorer la tendance des modèles minuscules et récursifs dans l'apprentissage automatique, en se concentrant sur TRM et ses implications en termes d'efficacité et de performances.

The world of machine learning is constantly evolving, with researchers always seeking ways to improve performance and efficiency. Lately, there's been buzz around 'Tiny model, recursive, machine learning' approaches. Let's dive into what's shaking in this field.
Le monde de l’apprentissage automatique est en constante évolution, les chercheurs cherchant toujours des moyens d’améliorer les performances et l’efficacité. Dernièrement, il y a eu un buzz autour des approches de « modèle minuscule, récursif, d'apprentissage automatique ». Plongeons dans ce qui bouge dans ce domaine.
The Rise of Tiny Recursive Models
L'essor des petits modèles récursifs
The recent work on TRM (Tiny Recursive Model) is questioning the necessity of complexity. TRM contains 5M-19M parameters, versus 27M in HRM. These models represent a fascinating shift towards simplicity and efficiency, challenging the conventional wisdom that bigger is always better.
Les travaux récents sur le TRM (Tiny Recursive Model) questionnent la nécessité de la complexité. TRM contient 5 M à 19 M de paramètres, contre 27 M dans HRM. Ces modèles représentent un changement fascinant vers la simplicité et l’efficacité, remettant en question l’idée reçue selon laquelle plus grand est toujours mieux.
TRM: A Closer Look
TRM : un examen plus approfondi
TRM simplifies the recursive process, designed with one small network, which is essentially a standard transformer block: [self-attention, norm, MLP, norm]. The model is designed so that there’s one small network, which is essentially a standard transformer block: [self-attention, norm, MLP, norm]. In the original idea, there were 4 such blocks (but after experiments they came to 2).
TRM simplifie le processus récursif, conçu avec un petit réseau, qui est essentiellement un bloc de transformateur standard : [auto-attention, norme, MLP, norme]. Le modèle est conçu de telle sorte qu'il existe un petit réseau, qui est essentiellement un bloc de transformateur standard : [auto-attention, norme, MLP, norme]. Dans l'idée originale, il y avait 4 blocs de ce type (mais après expériences, ils sont arrivés à 2).
At the input, it has three elements: input (x), latent (z), and prediction (y); they’re all summed into one value. The basic iteration, analogous to the L module in HRM, generates a latent value (z, also denoted in the recursion formula as z_L) at the layer output, and the updated z goes back to the module input, where it now adds to input (x) not as zero. The output-prediction (y, also denoted in the formula as z_H) is also added, but since it hasn’t been updated, it doesn’t change anything.
En entrée, il comporte trois éléments : entrée (x), latent (z) et prédiction (y) ; ils sont tous résumés en une seule valeur. L'itération de base, analogue au module L dans HRM, génère une valeur latente (z, également désignée dans la formule de récursion par z_L) à la sortie de la couche, et le z mis à jour retourne à l'entrée du module, où il s'ajoute désormais à l'entrée (x) non pas comme zéro. La prédiction de sortie (y, également notée z_H dans la formule) est également ajoutée, mais comme elle n'a pas été mise à jour, cela ne change rien.
Key Insights and Performance
Informations clés et performances
TRM achieves higher numbers than HRM: 74.7%/87.4% (attention version/MLP version) versus 55% for Sudoku, 85.3% (attention version, MLP version gives 0) versus 74.5% for Maze, 44.6%/29.6% (attn/MLP) versus 40.3% for ARC-AGI-1 and 7.8%/2.4% (attn/MLP) versus 5.0% for ARC-AGI-2. The experiments don’t look very expensive; runtime from <24 hours to about three days maximum on 4*H100 according to the repo.
TRM obtient des chiffres plus élevés que HRM : 74,7%/87,4% (version attention/version MLP) contre 55% pour Sudoku, 85,3% (version attention, version MLP donne 0) contre 74,5% pour Maze, 44,6%/29,6% (attn/MLP) contre 40,3% pour ARC-AGI-1 et 7,8%/2,4% (attn/MLP) contre 5,0 % pour ARC-AGI-2. Les expériences ne semblent pas très coûteuses ; durée d'exécution de <24 heures à environ trois jours maximum sur 4*H100 selon le repo.
My Two Cents
Mes deux cents
While the theoretical underpinnings of why these recursions work so well might not be fully understood yet, the empirical results are hard to ignore. TRM's architectural inventiveness, as opposed to eternal model scaling, is a breath of fresh air. It would be interesting how it would be with dataset scaling.
Même si les fondements théoriques expliquant pourquoi ces récursions fonctionnent si bien ne sont peut-être pas encore entièrement compris, les résultats empiriques sont difficiles à ignorer. L'inventivité architecturale de TRM, par opposition à la mise à l'échelle éternelle des modèles, est une bouffée d'air frais. Il serait intéressant de savoir comment cela se passerait avec la mise à l'échelle des ensembles de données.
Looking Ahead
Regarder vers l'avenir
The journey of 'Tiny model, recursive, machine learning' is just beginning. There's a lot more to explore. So, let's keep an eye on these tiny titans and see where they take us next. Good recursions to everyone!
Le voyage du « petit modèle, récursif, apprentissage automatique » ne fait que commencer. Il y a beaucoup plus à explorer. Alors gardons un œil sur ces petits titans et voyons où ils nous mèneront ensuite. Bonnes récursions à tous !
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Un expert en pièces de monnaie démystifie le mythe d'un centime rare de 5 millions de livres sterling et appelle à la vigilance des collectionneurs
- Feb 09, 2026 at 05:44 pm
- Un éminent expert en pièces de monnaie a émis un avertissement urgent, rejetant fermement les affirmations virales selon lesquelles une pièce de monnaie britannique moderne aurait été vendue pour la somme stupéfiante de 5 millions de livres sterling, rappelant aux collectionneurs de vérifier correctement la valeur des pièces rares.
-
- Le pouls de Big Apple : le marché de la cryptographie se prépare à l'IPC, aux présidents de la Fed et à une semaine folle à venir
- Feb 09, 2026 at 05:36 pm
- Les montagnes russes du marché de la cryptographie se poursuivent, les investisseurs étant attentifs aux données économiques cruciales et aux déclarations de la Réserve fédérale cette semaine, alors que Bitcoin navigue dans un paysage post-vente.
-
- Coinbase suspend son soutien à la loi sur la clarté et les législateurs sont aux prises avec la réglementation des crypto-monnaies
- Feb 09, 2026 at 05:00 pm
- Coinbase retire son soutien au Clarity Act, interrompant les travaux du Sénat. Les législateurs et l’industrie évoluent dans le paysage complexe de la réglementation des cryptomonnaies.
-
- Klardven, Big-Tech et les murmures des rumeurs d'investissement : une histoire d'infrastructure DeFi
- Feb 09, 2026 at 04:55 pm
- Les spéculations augmentent alors que Klardven, un projet d'infrastructure financière décentralisée, attire l'attention des intérêts potentiels des grandes technologies. Explorer l'impact de ces rumeurs d'investissement sur le paysage DeFi.
-
- Le jeton XAIZOT déclenche la prévente de crypto basée sur l'IA : une aube plus intelligente pour les actifs numériques
- Feb 09, 2026 at 04:53 pm
- La prévente de XAIZOT Token annonce un nouveau chapitre dans la finance numérique, fusionnant l'IA et la blockchain pour une utilité intelligente et une croissance robuste dans un paysage cryptographique compétitif.
-
- Hausse des prix du 9BIT lors des débuts de KuCoin : aperçu des perspectives futures de l'ascension de cette crypto de jeu
- Feb 09, 2026 at 04:52 pm
- The9bit monte en flèche sur sa liste KuCoin, déclenchant une hausse notable des prix. Nous examinons le rebond immédiat du marché, les signaux clés et les perspectives d'avenir de ce jeton de jeu en 2026.
-
- ClawHub assiégé : des milliers de plugins compromis dans une attaque sophistiquée d'IA
- Feb 09, 2026 at 04:49 pm
- Une faille de sécurité majeure a frappé l’écosystème des agents OpenClaw AI, le magasin de plugins officiel, ClawHub, hébergeant des centaines de plugins malveillants. Cette attaque sophistiquée d’IA met en évidence des vulnérabilités critiques.
-
- GPT-5.3 Codex vs Opus 4.6 : le raisonnement profond dans le développement de l'IA
- Feb 09, 2026 at 04:41 pm
- Le Codex GPT-5.3 d'OpenAI et l'Opus 4.6 d'Anthropic repoussent les limites de l'IA. Nous explorons leurs capacités, en nous concentrant sur la rapidité, le contexte et le raisonnement approfondi.
-
- La Corée du Sud renforce la réglementation sur la cryptographie suite à un problème majeur avec Bithumb
- Feb 09, 2026 at 04:28 pm
- L'organisme de surveillance financière sud-coréen appelle à des règles de cryptographie plus strictes après que l'erreur massive de Bithumb en matière de cadeaux Bitcoin ait mis en évidence des vulnérabilités systémiques, incitant à une action législative.
































