![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Lernkonzepte hinter Wörtern lernen, anstatt nur das nächste Token vorherzusagen
Jun 12, 2025 at 01:32 pm
Bemühungen wie Cocomix (Jihoon et al., 2025) ¹ von Meta haben konzeptionelles Lernen gemacht, dh Konzepte hinter Wörtern lernen, anstatt nur das nächste Token eine Realität vorherzusagen
In the dynamic sphere of artificial intelligence, a persistent pursuit has been the development of language models capable not only of syntactic analysis but also of semantic comprehension, enabling them to engage in conversations on a conceptual level. This capability, often termed "conceptual learning," stands in contrast to the shallower analysis that focuses on predicting the next token in a sequence.
Im dynamischen Bereich der künstlichen Intelligenz war eine anhaltende Verfolgung die Entwicklung von Sprachmodellen, die nicht nur mit syntaktischer Analyse, sondern auch des semantischen Verständnisses in der Lage waren, so dass sie Konversationen auf konzeptioneller Ebene führen können. Diese Fähigkeit, die oft als "konzeptionelles Lernen" bezeichnet wird, steht im Gegensatz zu der flacheren Analyse, die sich auf die Vorhersage des nächsten Tokens in einer Sequenz konzentriert.
While efforts like CoCoMix (Jihoon et al., 2025)¹ by Meta have brought us closer to this goal, introducing models that are remarkably steerable and interpretable, another core question arises. Even a conceptually brilliant model could struggle with nuanced or factual recall challenges after training, during actual deployment.
Während Bemühungen wie Cocomix (Jihoon et al., 2025) ¹ uns von Meta diesem Ziel näher gebracht haben, stellt sich eine weitere Kernfrage, die Modelle einführen, die bemerkenswert lenkbar und interpretierbar sind. Selbst ein konzeptionell brillantes Modell könnte nach dem Training während des tatsächlichen Einsatzes mit nuancierten oder sachlichen Rückrufherausforderungen zu kämpfen.
Imagine asking a seemingly simple question like, “Earlier in our 2-million-token conversation, where did we discuss Pinocchio’s famously growing nose?” No matter how conceptually capable the LLM is, it cannot answer this simple question if the answer lies outside its context window.
Stellen Sie sich vor, Sie stellen eine scheinbar einfache Frage: "Früher in unserem 2-Millionen-Gespräch haben wir Pinocchios berühmte wachsende Nase diskutiert?" Egal wie konzeptionell das LLM ist, es kann diese einfache Frage nicht beantworten, wenn die Antwort außerhalb ihres Kontextfensters liegt.
But this is precisely the kind of adaptability that humans effortlessly display. We can engage in a conversation about 19th-century Impressionist art, quickly recall a story from earlier in the day, and then seamlessly transition to discussing the best route to avoid traffic. A human guide could quickly glance at a map and suggest a clever alley shortcut, something a GPS system would struggle with despite knowing the shortest path.
Dies ist jedoch genau die Art von Anpassungsfähigkeit, die Menschen mühelos zeigen. Wir können uns über ein Gespräch über die impressionistische Kunst des 19. Jahrhunderts führen, uns schnell an eine Geschichte aus früherer Zeit erinnern und dann nahtlos in die beste Route umgehen, um den Verkehr zu vermeiden. Ein menschlicher Leitfaden könnte schnell auf eine Karte werfen und eine clevere Gassenverknüpfung vorschlagen, mit der ein GPS -System zu kämpfen hatte, obwohl er den kürzesten Weg kennt.
This ability to integrate new information and experiences into an ongoing narrative, adjusting plans and adapting to unexpected events, is crucial for meaningful communication and interaction with the world around us.
Diese Fähigkeit, neue Informationen und Erfahrungen in eine laufende Erzählung zu integrieren, Pläne anzupassen und sich an unerwartete Ereignisse anzupassen, ist entscheidend für eine sinnvolle Kommunikation und Interaktion mit der Welt um uns herum.
Now, a team of researchers at Google, in collaboration with researchers from Stanford University and the University of California, Irvine, has taken a significant step toward equipping large language models with this adaptable “memory” or performance boost precisely when it counts—during inference. Their findings are published in the journal Patterns.
Jetzt hat ein Team von Forschern bei Google in Zusammenarbeit mit Forschern der Stanford University und der University of California in Irvine einen bedeutenden Schritt unternommen, um große Sprachmodelle mit diesem anpassbaren „Gedächtnis“ oder Leistungssteigerungen auszustatten, wenn es zählt - Inferenz. Ihre Ergebnisse werden in den Journalmustern veröffentlicht.
Their research builds upon the groundbreaking work in introducing the Transformer architecture (Vaswani et al., 2017)², which quickly became ubiquitous in the modern AI landscape.
Ihre Forschung baut auf der bahnbrechenden Arbeit bei der Einführung der Transformatorarchitektur (Vaswani et al., 2017) ² auf, die in der modernen KI -Landschaft schnell allgegenwärtig wurde.
From the breakout success of Transformers and the surprising results of applying attention to various domains—vision tasks with Transformers (Dosovitskiy et al., 2020)³, time series forecasting with Transformers (Zerveas et al., 2021)⁴, and the remarkable performance of Transformers in natural language processing (Rogers et al., 2021)⁵—the researchers went deeper.
Aus dem Ausbruchserfolg von Transformatoren und den überraschenden Ergebnissen der Aufmerksamkeit auf verschiedene Bereiche - Vision -Aufgaben mit Transformatoren (Dosovitskiy et al., 2020), Zeitreihenvorhersage mit Transformatoren (Zerveas et al., 2021) ⁴, und die bemerkenswerte Leistung von Transformers in der natürlichen Sprache (Rogers et al.
As the reliance on large models deepened and compute budgets expanded, even this “do it all” architecture began to show its limits, and so began the push to stretch its capabilities even further.
Als sich die Abhängigkeit von großen Modellen vertiefte und die Budgets erweiterten, zeigten sich selbst diese Architektur „Mach alles“ ihre Grenzen und begann so den Vorstoß, ihre Fähigkeiten noch weiter auszudehnen.
The bottleneck was attention’s ‘everyone-talks-to-everyone’ approach. Brilliantly efficient but quadratically expensive—imagine a room of a million people, where each person must remember every conversation with everyone. This restricted Transformers to a narrow “working memory,” struggling with the “long-term recall” needed for understanding vast documents, as early information simply faded away.
Der Engpass war der Ansatz der Aufmerksamkeits "Alleins" -Ansatz. Genial effizient, aber quadratisch teuer - einen Raum von einer Million Menschen, in dem sich jede Person an jedes Gespräch mit allen erinnern muss. Dieser eingeschränkte Transformator zu einem engen „Arbeitsgedächtnis“, der mit dem „langfristigen Rückruf“ zu kämpfen hat, der für das Verständnis großer Dokumente benötigt wird, da die frühen Informationen einfach verblassten.
Moreover, vanilla transformers faced another fundamental hurdle—a lack of adaptability after training. While they excelled at applying their vast pre-trained knowledge to predict the next token, a process of sophisticated reasoning and prediction, this was not the same as true learning.
Darüber hinaus standen Vanille -Transformers einer weiteren grundlegenden Hürde aus - eine mangelnde Anpassungsfähigkeit nach dem Training. Während sie sich hervorgetan hatten, ihr großes vorgebildetes Wissen anzuwenden, um das nächste Token vorherzusagen, einem Prozess des ausgefeilten Denkens und Vorhersage, war dies nicht dasselbe wie das wahre Lernen.
Like Google Maps, which quickly finds the shortest path but then wants you to drive through barricades because of ongoing construction, despite a human guide immediately suggesting a simple alley shortcut, transformers struggled to integrate new information into their existing knowledge.
Wie Google Maps, der schnell den kürzesten Weg findet, aber dann möchte, dass Sie aufgrund der laufenden Konstruktion durch Barrikaden fahren, trotz eines menschlichen Leitfadens, der sofort auf eine einfache Gasse -Verknüpfung schlägt, bemühten sich Transformatoren, neue Informationen in ihr vorhandenes Wissen zu integrieren.
This inability to “learn on the fly” from the data they are currently processing, adjusting their strategies and memories, represents a critical limitation for tasks requiring continuous adaptation or memory of novel experiences beyond the training set.
Diese Unfähigkeit, „im laufenden Fliegen zu lernen“, stellt die von ihnen derzeit verarbeitenden Daten, die ihre Strategien und Erinnerungen anpassen, eine kritische Einschränkung für Aufgaben dar, die eine kontinuierliche Anpassung oder das Gedächtnis neuartiger Erfahrungen über das Trainingssatz hinaus erfordern.
Instead of focusing narrowly on one limitation, the researchers took a broader perspective: how do intelligent systems, like the human brain, manage memory and adapt to new situations? It’s not about having one massive, ever-accessible memory; it’s a more flexible setup, where different components coordinate to handle different kinds of information and experiences.
Anstatt sich eng auf eine Einschränkung zu konzentrieren, nahmen die Forscher eine breitere Perspektive: Wie intelligente Systeme wie das menschliche Gehirn, das Gedächtnis und die Anpassung an neue Situationen? Es geht nicht darum, ein massives, immer zugängliches Gedächtnis zu haben. Es ist ein flexibleres Setup, bei dem verschiedene Komponenten für verschiedene Arten von Informationen und Erfahrungen koordinieren.
The Titans architecture (Behrouz et al., 2025)⁶, named for the mythological beings known for their wisdom and adaptability, embraces this, built not around a single, monolithic attention block but around a cooperative team of specialized memory systems.
Die Titans -Architektur (Behrouz et al., 2025) ⁶, benannt nach den mythologischen Wesen, die für ihre Weisheit und Anpassungsfähigkeit bekannt sind, umfasst dies nicht um einen einzigen monolithischen Aufmerksamkeitsblock, sondern um ein kooperatives Team spezialisierter Speichersysteme.
Each memory module in Titans plays a crucial role in understanding and responding to the task at hand. The spatial memory module (PM) stores a set of parameters that are prepended to the input sequence. These parameters are learned during training and act like a “Holy Grail” for the model to adhere to.
Jedes Speichermodul in Titanen spielt eine entscheidende Rolle beim Verständnis und der Reaktion der jeweiligen Aufgabe. Das räumliche Speichermodul (PM) speichert eine Reihe von Parametern, die auf die Eingabesequenz vorbereitet werden. Diese Parameter werden während des Trainings gelernt und verhalten sich wie ein „heiliger Gral“, damit das Modell einhalten kann.
The spatial memory module (PM) stores a set of parameters that are prepended to the input sequence. These parameters are learned during training and act like a “Holy Grail” for the model to adhere to.
Das räumliche Speichermodul (PM) speichert eine Reihe von Parametern, die auf die Eingabesequenz vorbereitet werden. Diese Parameter werden während des Trainings gelernt und verhalten sich wie ein „heiliger Gral“, damit das Modell einhalten kann.
The researchers chose to implement the LMM using a simple multi-layer perceptron (MLP) network, which takes the output of the standard self-attention module (STM) at time step t, denoted as yt, as input.
Die Forscher haben sich entschieden, das LMM mit einem einfachen Mehrschicht-Perzeptron-Netzwerk (MLP) implementieren zu können, in dem die Ausgabe des Standard-Self-Attention-Moduls (STM) zum Zeitschritt T, der als YT bezeichnet wird, als Eingabe annimmt.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
-
-
-
-
- Web3 AI (WAI) bietet 1747% ROI und echtes Nutzen: Warum kann es Eth & Sui im Jahr 2025 übertreffen
- Jun 14, 2025 at 06:25 pm
- Erfahren Sie, warum Web3 AI (WAI) als sicherere, intelligentere Krypto -Investition im Vergleich zu Ethereum (ETH) und SUI (SUI) mit fortschrittlichen Sicherheitsinstrumenten und starkem Vorverkaufswachstum an Traktion gewinnt.
-
- Robert Kiyosaki: „Bürgerkrieg“ hat begonnen; Bitcoin kämpft gegen den finanziellen „Diebstahl“
- Jun 14, 2025 at 06:20 pm
- Der renommierte Autor und Finanzkommentator Robert Kiyosaki hat eine starke Warnung herausgegeben und erklärt, dass "Bürgerkrieg begonnen hat" und einen "langen, heißen, gewalttätigen Sommer" weltweit vorhersagt.
-
- Bitcoin (BTC) handelt flach, während Coinbase Premium steigt, was darauf hindeutet, dass US -Investoren den Dip kaufen
- Jun 14, 2025 at 06:20 pm
- Während das weltweit größte digitale Vermögenswert in den frühen Morgenstunden der Sitzung flach handelt, zeigen die Coindesk -Marktdaten, dass es in der Woche um 4% gestiegen ist.
-