|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Winziges Modell, rekursiv, maschinelles Lernen: Weniger ist mehr?
Oct 20, 2025 at 02:31 am
Erkundung des Trends zu winzigen, rekursiven Modellen beim maschinellen Lernen mit Schwerpunkt auf TRM und seinen Auswirkungen auf Effizienz und Leistung.

The world of machine learning is constantly evolving, with researchers always seeking ways to improve performance and efficiency. Lately, there's been buzz around 'Tiny model, recursive, machine learning' approaches. Let's dive into what's shaking in this field.
Die Welt des maschinellen Lernens entwickelt sich ständig weiter und Forscher suchen stets nach Möglichkeiten, Leistung und Effizienz zu verbessern. In letzter Zeit wird viel über Ansätze des „winzigen Modells, des rekursiven maschinellen Lernens“ gesprochen. Werfen wir einen Blick auf die Ereignisse in diesem Bereich.
The Rise of Tiny Recursive Models
Der Aufstieg winziger rekursiver Modelle
The recent work on TRM (Tiny Recursive Model) is questioning the necessity of complexity. TRM contains 5M-19M parameters, versus 27M in HRM. These models represent a fascinating shift towards simplicity and efficiency, challenging the conventional wisdom that bigger is always better.
Die jüngsten Arbeiten zu TRM (Tiny Recursive Model) stellen die Notwendigkeit von Komplexität in Frage. TRM enthält 5 bis 19 Millionen Parameter, im Vergleich zu 27 Millionen im HRM. Diese Modelle stellen einen faszinierenden Wandel hin zu Einfachheit und Effizienz dar und stellen die gängige Meinung in Frage, dass größer immer besser ist.
TRM: A Closer Look
TRM: Ein genauerer Blick
TRM simplifies the recursive process, designed with one small network, which is essentially a standard transformer block: [self-attention, norm, MLP, norm]. The model is designed so that there’s one small network, which is essentially a standard transformer block: [self-attention, norm, MLP, norm]. In the original idea, there were 4 such blocks (but after experiments they came to 2).
TRM vereinfacht den rekursiven Prozess, der mit einem kleinen Netzwerk entworfen wurde, das im Wesentlichen ein Standardtransformatorblock ist: [Selbstaufmerksamkeit, Norm, MLP, Norm]. Das Modell ist so konzipiert, dass es ein kleines Netzwerk gibt, das im Wesentlichen ein Standardtransformatorblock ist: [Selbstaufmerksamkeit, Norm, MLP, Norm]. In der ursprünglichen Idee gab es 4 solcher Blöcke (nach Experimenten kamen sie jedoch auf 2).
At the input, it has three elements: input (x), latent (z), and prediction (y); they’re all summed into one value. The basic iteration, analogous to the L module in HRM, generates a latent value (z, also denoted in the recursion formula as z_L) at the layer output, and the updated z goes back to the module input, where it now adds to input (x) not as zero. The output-prediction (y, also denoted in the formula as z_H) is also added, but since it hasn’t been updated, it doesn’t change anything.
Am Eingang gibt es drei Elemente: Eingabe (x), latent (z) und Vorhersage (y); Sie werden alle zu einem Wert zusammengefasst. Die grundlegende Iteration, analog zum L-Modul in HRM, generiert einen latenten Wert (z, in der Rekursionsformel auch als z_L bezeichnet) am Layer-Ausgang, und der aktualisierte z geht zurück zum Moduleingang, wo er nun zum Eingang (x) hinzugefügt wird, nicht als Null. Die Ausgabevorhersage (y, in der Formel auch als z_H bezeichnet) wird ebenfalls hinzugefügt, aber da sie nicht aktualisiert wurde, ändert sie nichts.
Key Insights and Performance
Wichtige Erkenntnisse und Leistung
TRM achieves higher numbers than HRM: 74.7%/87.4% (attention version/MLP version) versus 55% for Sudoku, 85.3% (attention version, MLP version gives 0) versus 74.5% for Maze, 44.6%/29.6% (attn/MLP) versus 40.3% for ARC-AGI-1 and 7.8%/2.4% (attn/MLP) versus 5.0% for ARC-AGI-2. The experiments don’t look very expensive; runtime from <24 hours to about three days maximum on 4*H100 according to the repo.
TRM erreicht höhere Zahlen als HRM: 74,7 %/87,4 % (Aufmerksamkeitsversion/MLP-Version) gegenüber 55 % für Sudoku, 85,3 % (Aufmerksamkeitsversion, MLP-Version gibt 0) gegenüber 74,5 % für Labyrinth, 44,6 %/29,6 % (Aufmerksamkeitsversion/MLP) gegenüber 40,3 % für ARC-AGI-1 und 7,8 %/2,4 % (attn/MLP) gegenüber 5,0 % für ARC-AGI-2. Die Experimente sehen nicht sehr teuer aus; Laufzeit von <24 Stunden bis maximal etwa drei Tage auf 4*H100 laut Repo.
My Two Cents
Meine zwei Cent
While the theoretical underpinnings of why these recursions work so well might not be fully understood yet, the empirical results are hard to ignore. TRM's architectural inventiveness, as opposed to eternal model scaling, is a breath of fresh air. It would be interesting how it would be with dataset scaling.
Während die theoretischen Grundlagen, warum diese Rekursionen so gut funktionieren, möglicherweise noch nicht vollständig verstanden sind, sind die empirischen Ergebnisse schwer zu ignorieren. Der architektonische Erfindungsreichtum von TRM ist im Gegensatz zur ewigen Modellskalierung ein Hauch frischer Luft. Es wäre interessant, wie es mit der Datensatzskalierung wäre.
Looking Ahead
Blick nach vorn
The journey of 'Tiny model, recursive, machine learning' is just beginning. There's a lot more to explore. So, let's keep an eye on these tiny titans and see where they take us next. Good recursions to everyone!
Die Reise des „winzigen Modells, rekursives, maschinelles Lernen“ hat gerade erst begonnen. Es gibt noch viel mehr zu entdecken. Behalten wir also diese winzigen Titanen im Auge und schauen wir, wohin sie uns als nächstes führen. Gute Rekursionen an alle!
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- Der CEO von Wintermute weist Gerüchte über einen Zusammenbruch der Kryptowährung angesichts der Marktvolatilität zurück
- Feb 09, 2026 at 12:00 am
- Evgeny Gaevoy, CEO von Wintermute, weist die jüngsten Gerüchte über den Zusammenbruch der Kryptowährung zurück und verwies auf den Mangel an glaubwürdigen Beweisen und strukturelle Marktverbesserungen seit vergangenen Krisen.
-
- Trumps Krypto-Tango: Gespräche im Weißen Haus beleben BTC- und PKR-Märkte
- Feb 08, 2026 at 11:59 pm
- Trumps sich entwickelnde Krypto-Haltung, die durch ein bevorstehendes Treffen im Weißen Haus und mutige politische Vorschläge hervorgehoben wird, verändert die Zukunft von Bitcoin und bewegt globale Märkte, einschließlich BTC bis PKR.
-
- Die Volatilität von Ethereum: Navigieren in Long-Positionen inmitten von WAGMI-Hoffnungen und technischen Upgrades
- Feb 08, 2026 at 11:56 pm
- Ethereum befindet sich an einem kritischen Punkt, der von extremer Volatilität und einem Tauziehen zwischen technologischem Fortschritt und makroökonomischen Ängsten geprägt ist. Diese Analyse befasst sich mit der „Ultrasound Money“-Erzählung, der Layer-2-Skalierung und dem institutionellen Interesse und untersucht, ob aktuelle Long-Positionen eine WAGMI-Zukunft oder ein riskantes Glücksspiel signalisieren.
-
- Web3, RWA und die regulatorische Abrechnung: Einen Kurs für konforme Innovation festlegen
- Feb 08, 2026 at 11:45 pm
- Die Zukunft von Web3 steht auf dem Spiel, da sich die globalen Vorschriften rund um RWA und digitale Vermögenswerte verschärfen und Innovatoren zu ethischen Rahmenbedingungen und institutioneller Compliance für nachhaltiges Wachstum drängen.
-
- Super Bowl Coin Toss: Den Münzwurf entschlüsseln, Wetttipps und eine historische Wendung für das große Spiel
- Feb 08, 2026 at 11:41 pm
- Bevor der Super Bowl 60 beginnt, bietet der Münzwurf eine spannende 50/50-Wettmöglichkeit. Entdecken Sie in diesem Jahr clevere Strategien, den verborgenen Wert der Gewinnchancen und die einzigartige historische Bedeutung der Münze selbst, während Sie sich gleichzeitig auf den Showdown zwischen den Patriots und den Seahawks vorbereiten.
-
-
-
- Der DraftKings-Super-Bowl-Promocode schaltet einen großen Bonus in der Größe eines Apfels für das Pats-Seahawks-Showdown frei
- Feb 08, 2026 at 11:14 pm
- Während der Super Bowl LX näher rückt, führt DraftKings eine bahnbrechende Aktion ein: Setzen Sie 5 $ und erhalten Sie Bonuswetten im Wert von 300 $. Für die New Yorker ist es die beste Gelegenheit, in die Action der Patriots vs. Seahawks einzutauchen.
-
- Der volatile Tanz von Ethereum: Tappen verspätete Käufer in eine Falle?
- Feb 08, 2026 at 11:08 pm
- Inmitten der jüngsten institutionellen Vorsicht und wilden Marktschwankungen bietet Ethereum eine tückische Landschaft. Für diejenigen, die einen späten Einstieg ins Auge fassen, liegt die eigentliche Falle im Timing und Temperament.
































