|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Diffusion Forcing: Next-Token-Vorhersage trifft auf Full-Sequenz-Diffusion
Oct 18, 2024 at 02:59 am
Im aktuellen KI-Zeitgeist erfreuen sich Sequenzmodelle aufgrund ihrer Fähigkeit, Daten zu analysieren und vorherzusagen, was als nächstes zu tun ist, immer größerer Beliebtheit.

Sequence models have become increasingly popular in the AI domain for their ability to analyze data and predict下一步做什么. For instance, you've likely used next-token prediction models like ChatGPT, which anticipate each word (token) in a sequence to form answers to users' queries. There are also full-sequence diffusion models like Sora, which convert words into dazzling, realistic visuals by successively "denoising" an entire video sequence.
Sequenzmodelle erfreuen sich im KI-Bereich aufgrund ihrer Fähigkeit, Daten zu analysieren und Vorhersagen zu treffen, immer größerer Beliebtheit. Beispielsweise haben Sie wahrscheinlich Modelle zur Vorhersage des nächsten Tokens wie ChatGPT verwendet, die jedes Wort (Token) in einer Sequenz antizipieren, um Antworten auf Benutzeranfragen zu bilden. Es gibt auch Vollsequenz-Diffusionsmodelle wie Sora, die Wörter in schillernde, realistische Bilder umwandeln, indem sie eine ganze Videosequenz sukzessive „entrauschen“.
Researchers from MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) have proposed a simple change to the diffusion training scheme that makes this sequence denoising considerably more flexible.
Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT haben eine einfache Änderung des Diffusionstrainingsschemas vorgeschlagen, die diese Sequenzentrauschung erheblich flexibler macht.
When applied to fields like computer vision and robotics, the next-token and full-sequence diffusion models have capability trade-offs. Next-token models can spit out sequences that vary in length.
Bei der Anwendung auf Bereiche wie Computer Vision und Robotik weisen die Next-Token- und Full-Sequence-Diffusionsmodelle Leistungskompromisse auf. Next-Token-Modelle können Sequenzen unterschiedlicher Länge ausspucken.
However, they make these generations while being unaware of desirable states in the far future—such as steering its sequence generation toward a certain goal 10 tokens away—and thus require additional mechanisms for long-horizon (long-term) planning. Diffusion models can perform such future-conditioned sampling, but lack the ability of next-token models to generate variable-length sequences.
Allerdings erzeugen sie diese Generationen, ohne sich der wünschenswerten Zustände in der fernen Zukunft bewusst zu sein – wie etwa die Steuerung ihrer Sequenzgenerierung auf ein bestimmtes Ziel, das zehn Token entfernt ist – und erfordern daher zusätzliche Mechanismen für eine langfristige (langfristige) Planung. Diffusionsmodelle können solche zukunftsbedingten Stichproben durchführen, ihnen fehlt jedoch die Fähigkeit von Next-Token-Modellen, Sequenzen variabler Länge zu erzeugen.
Researchers from CSAIL want to combine the strengths of both models, so they created a sequence model training technique called "Diffusion Forcing." The name comes from "Teacher Forcing," the conventional training scheme that breaks down full sequence generation into the smaller, easier steps of next-token generation (much like a good teacher simplifying a complex concept).
Forscher von CSAIL möchten die Stärken beider Modelle kombinieren und haben daher eine Sequenzmodell-Trainingstechnik namens „Diffusion Forcing“ entwickelt. Der Name stammt von „Teacher Forcing“, dem herkömmlichen Trainingsschema, das die vollständige Sequenzgenerierung in die kleineren, einfacheren Schritte der nächsten Token-Generierung aufteilt (ähnlich wie ein guter Lehrer ein komplexes Konzept vereinfacht).
Diffusion Forcing found common ground between diffusion models and teacher forcing: They both use training schemes that involve predicting masked (noisy) tokens from unmasked ones. In the case of diffusion models, they gradually add noise to data, which can be viewed as fractional masking.
Diffusion Forcing fand Gemeinsamkeiten zwischen Diffusionsmodellen und Teacher Forcing: Beide verwenden Trainingsschemata, bei denen maskierte (verrauschte) Token aus unmaskierten Token vorhergesagt werden. Im Fall von Diffusionsmodellen fügen sie den Daten nach und nach Rauschen hinzu, was als fraktionierte Maskierung angesehen werden kann.
The MIT researchers' Diffusion Forcing method trains neural networks to cleanse a collection of tokens, removing different amounts of noise within each one while simultaneously predicting the next few tokens. The result: a flexible, reliable sequence model that resulted in higher-quality artificial videos and more precise decision-making for robots and AI agents.
Die Diffusion Forcing-Methode der MIT-Forscher trainiert neuronale Netze, um eine Sammlung von Token zu bereinigen, wobei in jedem einzelne unterschiedliche Mengen an Rauschen entfernt werden, während gleichzeitig die nächsten paar Token vorhergesagt werden. Das Ergebnis: ein flexibles, zuverlässiges Sequenzmodell, das zu qualitativ hochwertigeren künstlichen Videos und einer präziseren Entscheidungsfindung für Roboter und KI-Agenten führte.
By sorting through noisy data and reliably predicting the next steps in a task, Diffusion Forcing can aid a robot in ignoring visual distractions to complete manipulation tasks. It can also generate stable and consistent video sequences and even guide an AI agent through digital mazes.
Durch die Sortierung verrauschter Daten und die zuverlässige Vorhersage der nächsten Schritte einer Aufgabe kann Diffusion Forcing einem Roboter dabei helfen, visuelle Ablenkungen zu ignorieren und Manipulationsaufgaben auszuführen. Es kann außerdem stabile und konsistente Videosequenzen erzeugen und sogar einen KI-Agenten durch digitale Labyrinthe führen.
This method could potentially enable household and factory robots to generalize to new tasks and improve AI-generated entertainment.
Diese Methode könnte es Haushalts- und Fabrikrobotern möglicherweise ermöglichen, neue Aufgaben zu übernehmen und die KI-generierte Unterhaltung zu verbessern.
"Sequence models aim to condition on the known past and predict the unknown future, a type of binary masking. However, masking doesn't need to be binary," says lead author, MIT electrical engineering and computer science (EECS) Ph.D. student, and CSAIL member Boyuan Chen.
„Sequenzmodelle zielen darauf ab, auf der bekannten Vergangenheit zu basieren und die unbekannte Zukunft vorherzusagen, eine Art binäre Maskierung. Allerdings muss die Maskierung nicht unbedingt binär sein“, sagt Hauptautor, MIT-Doktorand für Elektrotechnik und Informatik (EECS). . Student und CSAIL-Mitglied Boyuan Chen.
"With Diffusion Forcing, we add different levels of noise to each token, effectively serving as a type of fractional masking. At test time, our system can 'unmask' a collection of tokens and diffuse a sequence in the near future at a lower noise level. It knows what to trust within its data to overcome out-of-distribution inputs."
„Mit Diffusion Forcing fügen wir jedem Token unterschiedliche Rauschpegel hinzu und dienen so effektiv als eine Art fraktionierte Maskierung. Zur Testzeit kann unser System eine Sammlung von Token „demaskieren“ und in naher Zukunft eine Sequenz mit geringerem Rauschen verbreiten Es weiß, worauf es in seinen Daten vertrauen kann, um Eingaben außerhalb der Verteilung zu überwinden.
In several experiments, Diffusion Forcing thrived at ignoring misleading data to execute tasks while anticipating future actions.
In mehreren Experimenten gelang es Diffusion Forcing, irreführende Daten zu ignorieren, um Aufgaben auszuführen und gleichzeitig zukünftige Aktionen zu antizipieren.
When implemented into a robotic arm, for example, it helped swap two toy fruits across three circular mats, a minimal example of a family of long-horizon tasks that require memories. The researchers trained the robot by controlling it from a distance (or teleoperating it) in virtual reality.
Bei der Implementierung in einen Roboterarm half es beispielsweise dabei, zwei Spielzeugfrüchte auf drei kreisförmigen Matten auszutauschen, ein minimales Beispiel für eine Familie langwieriger Aufgaben, die Erinnerungen erfordern. Die Forscher trainierten den Roboter, indem sie ihn in der virtuellen Realität aus der Ferne steuerten (oder teleoperierten).
The robot is trained to mimic the user's movements from its camera. Despite starting from random positions and seeing distractions like a shopping bag blocking the markers, it placed the objects into its target spots.
Der Roboter ist darauf trainiert, die Bewegungen des Benutzers über seine Kamera nachzuahmen. Obwohl es von zufälligen Positionen aus startete und Ablenkungen wie eine Einkaufstüte sah, die die Markierungen blockierten, platzierte es die Objekte an ihren Zielpunkten.
To generate videos, they trained Diffusion Forcing on "Minecraft" game play and colorful digital environments created within Google's DeepMind Lab Simulator. When given a single frame of footage, the method produced more stable, higher-resolution videos than comparable baselines like a Sora-like full-sequence diffusion model and ChatGPT-like next-token models.
Um Videos zu erstellen, trainierten sie Diffusion Forcing am „Minecraft“-Gameplay und farbenfrohen digitalen Umgebungen, die mit dem DeepMind Lab Simulator von Google erstellt wurden. Bei Verwendung eines einzelnen Filmbilds erzeugte die Methode stabilere Videos mit höherer Auflösung als vergleichbare Basislinien wie ein Sora-ähnliches Vollsequenz-Diffusionsmodell und ChatGPT-ähnliche Next-Token-Modelle.
These approaches created videos that appeared inconsistent, with the latter sometimes failing to generate working video past just 72 frames.
Diese Ansätze erzeugten Videos, die inkonsistent wirkten, wobei letztere manchmal keine funktionierenden Videos über nur 72 Frames hinaus generierten.
Diffusion Forcing not only generates fancy videos, but can also serve as a motion planner that steers toward desired outcomes or rewards. Thanks to its flexibility, Diffusion Forcing can uniquely generate plans with varying horizon, perform tree search, and incorporate the intuition that the distant future is more uncertain than the near future.
Diffusion Forcing generiert nicht nur ausgefallene Videos, sondern kann auch als Bewegungsplaner dienen, der auf gewünschte Ergebnisse oder Belohnungen abzielt. Dank seiner Flexibilität kann Diffusion Forcing auf einzigartige Weise Pläne mit unterschiedlichem Horizont erstellen, eine Baumsuche durchführen und die Intuition berücksichtigen, dass die ferne Zukunft unsicherer ist als die nahe Zukunft.
In the task of solving a 2D maze, Diffusion Forcing outperformed six baselines by generating faster plans leading to the goal location, indicating that it could be an effective planner for robots in the future.
Bei der Lösung eines 2D-Labyrinths übertraf Diffusion Forcing sechs Basislinien, indem es schnellere Pläne generierte, die zum Zielort führten, was darauf hindeutet, dass es in Zukunft ein effektiver Planer für Roboter sein könnte.
Across each demo, Diffusion Forcing acted as a full sequence model, a next-token prediction model, or both. According to Chen, this versatile approach could potentially serve as a powerful backbone for a "world model," an AI system that can simulate the dynamics of the world by training on billions of internet videos.
In jeder Demo fungierte Diffusion Forcing als vollständiges Sequenzmodell, als Next-Token-Vorhersagemodell oder als beides. Laut Chen könnte dieser vielseitige Ansatz möglicherweise als leistungsstarkes Rückgrat für ein „Weltmodell“ dienen, ein KI-System, das die Dynamik der Welt durch Training auf Milliarden von Internetvideos simulieren kann.
This would allow robots
Dies würde Roboter ermöglichen
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Konsens 2026 Miami: Web3, Blockchain, Kryptowährung, NFTs, Metaverse, Konferenz, 5. Mai – Wo die Wall Street auf die digitale Grenze trifft
- May 01, 2026 at 11:27 pm
- In Miami herrscht Aufregung, während sich am 5. Mai der Konsens 2026 nähert, der Web3, Blockchain, Krypto, NFTs und den Wandel des Metaversums vom Hype zur institutionellen und nachhaltigen Realität hervorhebt.
-
- Die Fed hält die Zinsen stabil, was inmitten geopolitischer Spannungen einen Bitcoin-Preisverfall auslöst
- May 01, 2026 at 04:04 am
- Die Entscheidung der Federal Reserve, die Zinssätze beizubehalten, wirkt sich in Verbindung mit dem Nahostkonflikt auf den Preis von Bitcoin aus. Analyse aktueller Trends und Marktreaktionen.
-
- Bitcoin-Miner elektrifizieren das Netz: Der Erwerb eines Gaskraftwerks in Ohio läutet eine neue Ära für digitales Gold ein
- Apr 30, 2026 at 10:38 pm
- Die Bitcoin-Mining-Branche befindet sich in einem erheblichen Wandel, wobei große Akteure ihre Aktivitäten aggressiv ausweiten und strategisch Energieanlagen wie Gaskraftwerke in Ohio erwerben, um ihre Zukunft in der digitalen Wirtschaft zu festigen.
-
- Der MEGA-Token von MegaETH erreicht den Big Apple: Er setzt neue Leistungsmaßstäbe für Echtzeit-Blockchain
- Apr 30, 2026 at 09:11 pm
- Der MEGA-Token von MegaETH wurde offiziell eingeführt und bestätigt seine „Echtzeit“-Blockchain-Vision mit einem leistungsorientierten Verteilungsmodell und einer schnellen USDM-Stablecoin-Einführung.
-
- Solanas rutschiger Abhang: Die Preisprognose deutet auf einen Widerstandsverlust und mögliche weitere Rückgänge hin
- Apr 30, 2026 at 09:08 pm
- Solana kämpft darum, wichtige Widerstände zu durchbrechen, was auf einen möglichen Abwärtstrend hindeutet. Wiederholte Ablehnungen bei 86 bis 88 US-Dollar, gepaart mit einem unterbrochenen kurzfristigen Muster, deuten auf Ziele von nur 67 US-Dollar oder sogar 40 US-Dollar hin, da die Verkäufer die Kontrolle behalten. Anleger sollten die kritischen Unterstützungsniveaus genau beobachten.
-
- BTC, Öl, Gewinne: Geopolitik treibt Rohöl an, Kryptos rutschen ab, Triumphe und Prüfungen der Technologie
- Apr 30, 2026 at 04:51 pm
- Die globalen Märkte sind ein Wirbelsturm: BTC sinkt, während der Ölpreis aufgrund geopolitischer Spannungen Mehrjahreshöchststände erreicht, während Technologiegiganten gemischte Gewinne verbuchen, was ein Zeichen für eine komplexe Finanzlandschaft ist.
-
- New York Citys neuer Trend: Abstecksysteme, USD1 und Governance treiben die nächste Welle von Krypto voran
- Apr 30, 2026 at 03:02 pm
- Von lukrativen 1-Dollar-Verdienstveranstaltungen bis hin zu robusten Governance-Modellen wimmelt es im Kryptobereich von Innovationen, die die Art und Weise, wie wir mit digitalen Vermögenswerten umgehen, neu gestalten und sich dabei auf langfristiges Engagement und den Nutzen stabiler Münzen konzentrieren.
-
- OKX stellt Agent Payments Protocol vor: läutet eine neue Ära der KI-Transaktionen ein
- Apr 30, 2026 at 02:53 pm
- OKX führt sein Agent Payments Protocol (APP) ein, einen offenen Standard für KI-gesteuerten Handel, der es Agenten ermöglicht, komplette Geschäftszyklen zu verwalten. Entdecken Sie die Auswirkungen auf KI-Transaktionen und Agentenzahlungen.

































