![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
Die multimodale KI entwickelt sich zum Erstellen von Systemen, die mit mehreren Datentypen verstehen, generieren und reagieren können
May 09, 2025 at 02:26 pm
Die multimodale KI entwickelt sich schnell zum Erstellen von Systemen, die mithilfe mehrerer Datentypen innerhalb einer einzelnen Konversation oder Aufgabe verstehen, generieren und reagieren können
Multimodal AI is rapidly evolving to create systems that can understand, generate, and respond using multiple data types within a single conversation or task. This capability, crucial for seamless human-AI communication, is being actively researched as users increasingly engage AI for tasks like image captioning, text-based photo editing, and style transfers.
Die multimodale KI entwickelt sich schnell, um Systeme zu erstellen, die mithilfe mehrerer Datentypen innerhalb einer einzelnen Konversation oder Aufgabe verstehen, generieren und reagieren können. Diese Fähigkeit, die für die nahtlose Kommunikation von Menschen-AI von entscheidender Bedeutung ist, wird aktiv untersucht, da die Benutzer KI zunehmend für Aufgaben wie Bildunterschriften, textbasierte Fotobearbeitung und Stilübertragungen einbeziehen.
A major obstacle in this area stems from the misalignment between language-based semantic understanding and the visual fidelity required in image synthesis or editing. When separate models handle different modalities, the outputs often become inconsistent, leading to poor coherence or inaccuracies. For instance, the visual model might excel in an image but fail to comprehend the nuanced instructions, while the language model might understand the prompt but cannot shape it visually.
Ein wichtiges Hindernis in diesem Bereich beruht auf der Fehlausrichtung zwischen sprachbasiertem semantischem Verständnis und der visuellen Treue, die bei der Bildsynthese oder -bearbeitung erforderlich ist. Wenn separate Modelle unterschiedliche Modalitäten verarbeiten, werden die Ausgänge häufig inkonsistent, was zu einer schlechten Kohärenz oder Ungenauigkeiten führt. Zum Beispiel könnte sich das visuelle Modell in einem Bild hervorheben, aber die nuancierten Anweisungen nicht verstehen, während das Sprachmodell die Eingabeaufforderung versteht, sie jedoch nicht visuell formen kann.
This approach also demands significant compute resources and retraining efforts for each domain. Thus, the inability to seamlessly link vision and language into a coherent and interactive experience remains one of the fundamental problems in advancing intelligent systems.
Dieser Ansatz erfordert auch erhebliche Rechenressourcen und Umschulungsbemühungen für jeden Bereich. Daher bleibt die Unfähigkeit, Vision und Sprache nahtlos in eine kohärente und interaktive Erfahrung zu verknüpfen, eines der grundlegenden Probleme bei der Weiterentwicklung intelligenter Systeme.
In recent attempts to bridge this gap, researchers have combined architectures with fixed visual encoders and separate decoders that function through diffusion-based techniques. Tools such as TokenFlow and Janus integrate token-based language models with image generation backends, typically emphasizing pixel accuracy over semantic depth. While these approaches can produce visually rich content, they often miss the contextual nuances of user input.
In jüngsten Versuchen, diese Lücke zu schließen, haben Forscher Architekturen mit festen visuellen Encodern und getrennten Decodern kombiniert, die durch Diffusionsbasis-techniken funktionieren. Tools wie Tokenflow und Janus integrieren Token-basierte Sprachmodelle mit Backends mit Bildgenerierung, wodurch die Pixelgenauigkeit über die semantische Tiefe betont wird. Während diese Ansätze visuell reichhaltige Inhalte erzeugen können, verpassen sie häufig die kontextuellen Nuancen der Benutzereingabe.
Others, like GPT-4o, have moved toward native image generation capabilities but still operate with limitations in deeply integrated understanding. The friction lies in translating abstract text prompts into meaningful and context-aware visuals in a fluid interaction without splitting the pipeline into disjointed parts.
Andere, wie GPT-4O, haben sich auf die Fähigkeiten zur Erzeugung von nativen Bilderzeugen bewegt, aber dennoch mit Einschränkungen im zutiefst integrierten Verständnis arbeiten. Die Reibung besteht darin, abstrakte Textaufforderungen in eine sinnvolle und kontextbezogene Grafik in einer Fluid-Wechselwirkung zu übersetzen, ohne die Pipeline in unzusammenhängende Teile aufzuteilen.
Now, researchers from Inclusion AI, Ant Group have presented Ming-Lite-Uni, an open-source framework designed to unify text and vision through an autoregressive multimodal structure. The system features a native autoregressive model built on top of a fixed large language model and a fine-tuned diffusion image generator. This design is based on two core frameworks: MetaQueries and M2-omni.
Jetzt haben Forscher der Inklusion AI, ANT Group, Ming-Lite-Uni vorgestellt, ein Open-Source-Rahmen, das Text und Sehen durch eine autoregressive multimodale Struktur vereinen soll. Das System verfügt über ein natives autoregressives Modell, das auf einem festen großen Sprachmodell und einem fein abgestimmten Diffusionsbildgenerator aufgebaut ist. Dieses Design basiert auf zwei Kernrahmen: Metaquerien und M2-OMNI.
Ming-Lite-Uni introduces an innovative component of multi-scale learnable tokens, which act as interpretable visual units, and a corresponding multi-scale alignment strategy to maintain coherence between various image scales. The researchers have provided all the model weights and implementation openly to support community research, positioning Ming-Lite-Uni as a prototype moving toward general artificial intelligence.
Ming-lite-uni stellt eine innovative Komponente von multi-skalierigen, lernbaren Token ein, die als interpretierbare visuelle Einheiten fungieren, und eine entsprechende Strategie für mehrskalige Ausrichtungen, um die Kohärenz zwischen verschiedenen Bildskalen aufrechtzuerhalten. Die Forscher haben alle Modellgewichte und Implementierung offen zur Unterstützung der Community-Forschung bereitgestellt und Ming-lite-uni als Prototyp in Richtung allgemeiner künstlicher Intelligenz positioniert.
The core mechanism behind the model involves compressing visual inputs into structured token sequences across multiple scales, such as 4×4, 8×8, and 16×16 image patches, each representing different levels of detail, from layout to textures. These tokens are processed alongside text tokens using a large autoregressive transformer. Each resolution level is marked with unique start and end tokens and assigned custom positional encodings.
Der Kernmechanismus hinter dem Modell beinhaltet die Komprimierung visueller Eingänge in strukturierte Token -Sequenzen über mehrere Skalen hinweg, wie z. Diese Token werden neben Textzusuken mit einem großen autoregressiven Transformator verarbeitet. Jede Auflösungsstufe ist mit einzigartigen Start- und End -Token und benutzerdefinierten Positionscodierungen gekennzeichnet.
The model employs a multi-scale representation alignment strategy that aligns intermediate and output features through a mean squared error loss, ensuring consistency across layers. This technique boosts image reconstruction quality by over 2 dB in PSNR and improves generation evaluation (GenEval) scores by 1.5%.
Das Modell verwendet eine multiskalige Repräsentations-Alignment-Strategie, die Zwischen- und Ausgangsmerkmale durch einen mittleren quadratischen Fehlerverlust ausrichtet und die Konsistenz über die Ebenen hinweg sicherstellt. Diese Technik steigert die Bildrekonstruktionsqualität um über 2 dB in PSNR und verbessert die Bewertung der Erzeugungsbewertung (Geneval) um 1,5%.
Unlike other systems that retrain all components, Ming-Lite-Uni keeps the language model frozen and only fine-tunes the image generator, allowing faster updates and more efficient scaling. The system was tested on various multimodal tasks, including text-to-image generation, style transfer, and detailed image editing using instructions like “make the sheep wear tiny sunglasses” or “remove two of the flowers in the image.”
Im Gegensatz zu anderen Systemen, die alle Komponenten wiederholen, hält Ming-Lite-Uni das Sprachmodell gefroren und stimmt nur den Bildgenerator gut ab, wodurch schnellere Updates und eine effizientere Skalierung ermöglicht werden. Das System wurde an verschiedenen multimodalen Aufgaben getestet, einschließlich der Erzeugung von Text-zu-Image-Erzeugung, Stilübertragung und detaillierter Bildbearbeitung unter Verwendung von Anweisungen wie „Schafs tragen winzige Sonnenbrillen“ oder „Zwei der Blumen im Bild entfernen“.
The model handled these tasks with high fidelity and contextual fluency. It maintained strong visual quality even when given abstract or stylistic prompts such as “Hayao Miyazaki’s style” or “Adorable 3D.”
Das Modell hat diese Aufgaben mit hoher Wiedergabetreue und kontextbezogener Flüssigkeit erledigt. Es hielt eine starke visuelle Qualität, auch wenn es abstrakte oder stilistische Aufforderungen wie „Hayao Miyazakis Stil“ oder „entzückend 3D“ gegeben hat.
The training set spanned over 2.25 billion samples, combining LAION-5B (1.55B), COYO (62M), and Zero (151M), supplemented with filtered samples from Midjourney (5.4M), Wukong (35M), and other web sources (441M). Furthermore, it incorporated fine-grained datasets for aesthetic assessment, including AVA (255K samples), TAD66K (66K), AesMMIT (21.9K), and APDD (10K), which enhanced the model’s ability to generate visually appealing outputs according to human aesthetic standards.
Der Trainingssatz über 2,25 Milliarden Proben übernommen und kombinierte Laion-5b (1,55B), Coyo (62 m) und Null (151 m), ergänzt mit gefilterten Proben von Midjourney (5,4 m), Wukong (35 m) und anderen Webquellen (441 m). Darüber hinaus umfasste es feinkörnige Datensätze für die ästhetische Bewertung, einschließlich AVA (255K-Proben), TAD66K (66K), AESMMIT (21,9K) und APDD (10K), was die Fähigkeit des Modells verbesserte, visuell ansprechende Ergebnisse nach menschlichen ästhetischen Standards zu generieren.
The model combines semantic robustness with high-resolution image generation in a single pass. It achieves this by aligning image and text representations at the token level across scales, rather than depending on a fixed encoder-decoder split. The approach allows autoregressive models to carry out complex editing tasks with contextual guidance, which was previously hard to achieve. FlowMatching loss and scale-specific boundary markers support better interaction between the transformer and the diffusion layers.
Das Modell kombiniert semantische Robustheit mit hochauflösender Bildgenerierung in einem einzigen Pass. Dies erreicht dies durch Ausrichten von Bild- und Textdarstellungen auf der Ebene über Skalen, anstatt von einem festen Encoder-Decoder-Split abhängig zu sein. Der Ansatz ermöglicht es autoregressiven Modellen, komplexe Bearbeitungsaufgaben mit kontextbezogener Führung auszuführen, was bisher schwer zu erreichen war. Flowmatching-Verlust und skalierungsspezifische Grenzmarker unterstützen eine bessere Wechselwirkung zwischen dem Transformator und den Diffusionsschichten.
Overall, the model strikes a rare balance between language comprehension and visual output, positioning it as a significant step toward practical multimodal AI systems.
Insgesamt trifft das Modell ein seltenes Gleichgewicht zwischen Sprachverständnis und visueller Ausgabe und positioniert es als einen signifikanten Schritt in Richtung praktischer multimodaler KI -Systeme.
Several Key Takeaways from the Research on Ming-Lite_Uni:
Mehrere wichtige Imbissbuden aus der Forschung zu Ming-Lite_uni:
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- Arctic Pablo Coin (APC) dominiert die Vorverkaufs -Szene - die beste Krypto, in die man für 2025 investieren kann, während Ethereum und Polkadot strategische Schritte unternehmen!
- May 10, 2025 at 01:12 am
- Entdecken Sie den Vorverkaufsboom von Arctic Pablo Coin, den neuen Scaling -Push von Ethereum und Polkadots AI Leap. Entdecken Sie, warum Arctic Pablo die beste Krypto ist, um zu investieren
-
- Steak 'n Shake, um Bitcoin -Zahlungen an allen US -Standorten ab dem 16. Mai zu akzeptieren
- May 10, 2025 at 01:12 am
- Steak 'n Shake wird Bitcoin als Zahlung an allen US -Standorten ab dem 16. Mai annehmen, teilte das Unternehmen am Donnerstag mit und markierte eine der größten Bitcoin -Integrationen von Fast Food Bitcoin.
-
-
- Ruvi (Ruvi) stiehlt die Show von Cardano (ADA) mit seiner bahnbrechenden KI-Blockchain
- May 10, 2025 at 01:05 am
- Cardano (ADA) hat kürzlich Schlagzeilen mit einem Preisschub von 12,97% gemacht und stieg auf 0,7941 USD. Zu der Aufregung hat Cardano einen Meilenstein erreicht, wobei 78% seines Gesamtversorgung jetzt im Umlauf
-
-
-
-
-