Capitalisation boursière: $3.2264T 7.740%
Volume(24h): $162.8717B 32.210%
  • Capitalisation boursière: $3.2264T 7.740%
  • Volume(24h): $162.8717B 32.210%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $3.2264T 7.740%
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
Top nouvelles
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
bitcoin
bitcoin

$102645.326745 USD

3.86%

ethereum
ethereum

$2235.824185 USD

20.09%

tether
tether

$0.999978 USD

-0.04%

xrp
xrp

$2.318227 USD

6.77%

bnb
bnb

$626.285788 USD

2.98%

solana
solana

$162.866519 USD

8.45%

usd-coin
usd-coin

$1.000142 USD

0.00%

dogecoin
dogecoin

$0.196724 USD

10.69%

cardano
cardano

$0.771249 USD

9.92%

tron
tron

$0.256040 USD

2.64%

sui
sui

$3.963536 USD

10.47%

chainlink
chainlink

$15.896137 USD

10.95%

avalanche
avalanche

$22.320543 USD

11.21%

stellar
stellar

$0.296058 USD

10.87%

shiba-inu
shiba-inu

$0.000014 USD

9.85%

Articles d’actualité sur les crypto-monnaies

L'IA multimodale évolue pour créer des systèmes qui peuvent comprendre, générer et répondre à l'aide de plusieurs types de données

May 09, 2025 at 02:26 pm

L'IA multimodale évolue rapidement pour créer des systèmes qui peuvent comprendre, générer et répondre à l'aide de plusieurs types de données dans une seule conversation ou tâche

L'IA multimodale évolue pour créer des systèmes qui peuvent comprendre, générer et répondre à l'aide de plusieurs types de données

Multimodal AI is rapidly evolving to create systems that can understand, generate, and respond using multiple data types within a single conversation or task. This capability, crucial for seamless human-AI communication, is being actively researched as users increasingly engage AI for tasks like image captioning, text-based photo editing, and style transfers.

L'IA multimodale évolue rapidement pour créer des systèmes qui peuvent comprendre, générer et répondre à l'aide de plusieurs types de données dans une seule conversation ou tâche. Cette capacité, cruciale pour la communication humaine sans couture, est en cours de recherche activement alors que les utilisateurs engagent de plus en plus l'IA pour des tâches comme le sous-titrage d'image, l'édition de photos basée sur le texte et les transferts de style.

A major obstacle in this area stems from the misalignment between language-based semantic understanding and the visual fidelity required in image synthesis or editing. When separate models handle different modalities, the outputs often become inconsistent, leading to poor coherence or inaccuracies. For instance, the visual model might excel in an image but fail to comprehend the nuanced instructions, while the language model might understand the prompt but cannot shape it visually.

Un obstacle majeur dans ce domaine découle du désalignement entre la compréhension sémantique basée sur le langage et la fidélité visuelle requise dans la synthèse d'image ou l'édition. Lorsque des modèles séparés gèrent différentes modalités, les sorties deviennent souvent incohérentes, conduisant à une mauvaise cohérence ou à des inexactitudes. Par exemple, le modèle visuel peut exceller dans une image mais ne comprend pas les instructions nuancées, tandis que le modèle de langue peut comprendre l'invite mais ne peut pas le façonner visuellement.

This approach also demands significant compute resources and retraining efforts for each domain. Thus, the inability to seamlessly link vision and language into a coherent and interactive experience remains one of the fundamental problems in advancing intelligent systems.

Cette approche exige également des ressources de calcul importantes et des efforts de recyclage pour chaque domaine. Ainsi, l'incapacité de lier de manière transparente la vision et le langage en une expérience cohérente et interactive reste l'un des problèmes fondamentaux pour faire progresser les systèmes intelligents.

In recent attempts to bridge this gap, researchers have combined architectures with fixed visual encoders and separate decoders that function through diffusion-based techniques. Tools such as TokenFlow and Janus integrate token-based language models with image generation backends, typically emphasizing pixel accuracy over semantic depth. While these approaches can produce visually rich content, they often miss the contextual nuances of user input.

Dans des tentatives récentes pour combler cet écart, les chercheurs ont combiné des architectures avec des encodeurs visuels fixes et des décodeurs séparés qui fonctionnent à travers des techniques basées sur la diffusion. Des outils tels que TokenFlow et Janus intègrent des modèles de langage basés sur des jetons avec des backends de génération d'images, mettant généralement l'accent sur la précision des pixels sur la profondeur sémantique. Bien que ces approches puissent produire du contenu visuellement riche, elles manquent souvent les nuances contextuelles de l'entrée des utilisateurs.

Others, like GPT-4o, have moved toward native image generation capabilities but still operate with limitations in deeply integrated understanding. The friction lies in translating abstract text prompts into meaningful and context-aware visuals in a fluid interaction without splitting the pipeline into disjointed parts.

D'autres, comme GPT-4O, ont évolué vers les capacités de génération d'images natifs mais fonctionnent toujours avec des limitations dans une compréhension profondément intégrée. Le frottement réside dans la traduction du texte abstrait invite à des visuels significatifs et conscients du contexte dans une interaction fluide sans diviser le pipeline en parties disjointes.

Now, researchers from Inclusion AI, Ant Group have presented Ming-Lite-Uni, an open-source framework designed to unify text and vision through an autoregressive multimodal structure. The system features a native autoregressive model built on top of a fixed large language model and a fine-tuned diffusion image generator. This design is based on two core frameworks: MetaQueries and M2-omni.

Désormais, des chercheurs d'Inclusion AI, Ant Group ont présenté Ming-Lite-Uni, un cadre open-source conçu pour unifier le texte et la vision à travers une structure multimodale autorégressive. Le système dispose d'un modèle autorégressif natif construit au-dessus d'un modèle fixe en grand langage et d'un générateur d'images de diffusion affiné. Cette conception est basée sur deux cadres principaux: les métaquesses et M2-OMNI.

Ming-Lite-Uni introduces an innovative component of multi-scale learnable tokens, which act as interpretable visual units, and a corresponding multi-scale alignment strategy to maintain coherence between various image scales. The researchers have provided all the model weights and implementation openly to support community research, positioning Ming-Lite-Uni as a prototype moving toward general artificial intelligence.

Ming-Lite-UNi introduit une composante innovante des jetons à apprentissage multi-échelles, qui agissent comme des unités visuelles interprétables, et une stratégie d'alignement à échelle multiple correspondante pour maintenir la cohérence entre diverses échelles d'image. Les chercheurs ont fourni ouvertement tous les poids du modèle et la mise en œuvre pour soutenir la recherche communautaire, positionnant Ming-Lite-Uni en tant que prototype évoluant vers l'intelligence artificielle générale.

The core mechanism behind the model involves compressing visual inputs into structured token sequences across multiple scales, such as 4×4, 8×8, and 16×16 image patches, each representing different levels of detail, from layout to textures. These tokens are processed alongside text tokens using a large autoregressive transformer. Each resolution level is marked with unique start and end tokens and assigned custom positional encodings.

Le mécanisme central derrière le modèle consiste à compresser les entrées visuelles dans des séquences de jetons structurées à travers plusieurs échelles, telles que 4 × 4, 8 × 8 et 16 × 16 patchs d'image, chacun représentant différents niveaux de détail, de la disposition aux textures. Ces jetons sont traités aux côtés des jetons de texte à l'aide d'un grand transformateur autorégressif. Chaque niveau de résolution est marqué avec des jetons de démarrage et d'extrémité uniques et des encodages positionnels personnalisés attribués.

The model employs a multi-scale representation alignment strategy that aligns intermediate and output features through a mean squared error loss, ensuring consistency across layers. This technique boosts image reconstruction quality by over 2 dB in PSNR and improves generation evaluation (GenEval) scores by 1.5%.

Le modèle utilise une stratégie d'alignement de représentation à plusieurs échelles qui aligne les caractéristiques intermédiaires et de sortie grâce à une perte d'erreur carrée moyenne, assurant la cohérence entre les couches. Cette technique augmente la qualité de la reconstruction de l'image de plus de 2 dB dans le PSNR et améliore les scores d'évaluation de la génération (Geneval) de 1,5%.

Unlike other systems that retrain all components, Ming-Lite-Uni keeps the language model frozen and only fine-tunes the image generator, allowing faster updates and more efficient scaling. The system was tested on various multimodal tasks, including text-to-image generation, style transfer, and detailed image editing using instructions like “make the sheep wear tiny sunglasses” or “remove two of the flowers in the image.”

Contrairement à d'autres systèmes qui recycler tous les composants, Ming-Lite-Uni garde le modèle de langue figé et ne fait que affiner le générateur d'images, permettant des mises à jour plus rapides et une mise à l'échelle plus efficace. Le système a été testé sur diverses tâches multimodales, notamment la génération de texte à l'image, le transfert de style et l'édition d'images détaillées à l'aide d'instructions comme «Faire des moutons de minuscules lunettes de soleil» ou «enlever deux des fleurs de l'image».

The model handled these tasks with high fidelity and contextual fluency. It maintained strong visual quality even when given abstract or stylistic prompts such as “Hayao Miyazaki’s style” or “Adorable 3D.”

Le modèle a géré ces tâches avec une grande fidélité et une maîtrise contextuelle. Il a maintenu une forte qualité visuelle même lorsqu'il est donné des invites abstraites ou stylistiques telles que le «style de Hayao Miyazaki» ou «Adorable 3D».

The training set spanned over 2.25 billion samples, combining LAION-5B (1.55B), COYO (62M), and Zero (151M), supplemented with filtered samples from Midjourney (5.4M), Wukong (35M), and other web sources (441M). Furthermore, it incorporated fine-grained datasets for aesthetic assessment, including AVA (255K samples), TAD66K (66K), AesMMIT (21.9K), and APDD (10K), which enhanced the model’s ability to generate visually appealing outputs according to human aesthetic standards.

L'ensemble de formation a duré plus de 2,25 milliards d'échantillons, combinant le laion-5b (1,55b), le coyo (62 m) et le zéro (151 m), complété par des échantillons filtrés de Midjourney (5,4 m), Wukong (35m) et d'autres sources Web (441m). En outre, il a incorporé des ensembles de données à grain fin pour l'évaluation esthétique, notamment AVA (échantillons 255k), TAD66K (66K), Aesmmit (21,9k) et APDD (10K), ce qui a amélioré la capacité du modèle à générer des résultats invitables en visuellement selon les standards esthétiques humains.

The model combines semantic robustness with high-resolution image generation in a single pass. It achieves this by aligning image and text representations at the token level across scales, rather than depending on a fixed encoder-decoder split. The approach allows autoregressive models to carry out complex editing tasks with contextual guidance, which was previously hard to achieve. FlowMatching loss and scale-specific boundary markers support better interaction between the transformer and the diffusion layers.

Le modèle combine la robustesse sémantique avec la génération d'images à haute résolution en un seul passage. Il y parvient en alignant les représentations d'image et de texte au niveau du jeton à travers les échelles, plutôt que de dépendre d'une division fixe d'encodeur d'encodeur. L'approche permet aux modèles autorégressifs de réaliser des tâches d'édition complexes avec un guidage contextuel, qui était auparavant difficile à réaliser. Les marqueurs de limite spécifiques à l'échelle et l'échelle soutiennent une meilleure interaction entre le transformateur et les couches de diffusion.

Overall, the model strikes a rare balance between language comprehension and visual output, positioning it as a significant step toward practical multimodal AI systems.

Dans l'ensemble, le modèle établit un équilibre rare entre la compréhension du langage et la sortie visuelle, le positionnant comme une étape significative vers les systèmes d'IA multimodaux pratiques.

Several Key Takeaways from the Research on Ming-Lite_Uni:

Plusieurs plats clés de la recherche sur Ming-Lite_Uni:

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur May 10, 2025