![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Tokenbridge: combler l'écart entre les représentations de jetons continues et discrets dans la génération visuelle
Mar 28, 2025 at 06:13 am
Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue.
Autoregressive visual generation models have emerged as a groundbreaking approach to image synthesis, drawing inspiration from language model token prediction mechanisms. These innovative models utilize image tokenizers to transform visual content into discrete or continuous tokens. The approach facilitates flexible multimodal integrations and allows adaptation of architectural innovations from LLM research. However, the field faces a critical challenge of determining the optimal token representation strategy. The choice between discrete and continuous tokens remains a fundamental dilemma, impacting model complexity and generation quality.
Les modèles de génération visuelle autorégressifs sont devenus une approche révolutionnaire de la synthèse d'image, s'inspirant des mécanismes de prédiction des jetons du modèle de langue. Ces modèles innovants utilisent des jetons d'image pour transformer le contenu visuel en jetons discrets ou continus. L'approche facilite les intégrations multimodales flexibles et permet l'adaptation des innovations architecturales de la recherche LLM. Cependant, le domaine est confronté à un défi critique de déterminer la stratégie optimale de représentation des jetons. Le choix entre les jetons discrets et continus reste un dilemme fondamental, ce qui a un impact sur la complexité du modèle et la qualité de génération.
Existing methods include visual tokenization that explores two primary approaches: continuous and discrete token representations. Variational autoencoders establish continuous latent spaces that maintain high visual fidelity, becoming foundational in diffusion model development. Discrete methods like VQ-VAE and VQGAN enable straightforward autoregressive modeling but encounter significant limitations, including codebook collapse and information loss.
Les méthodes existantes incluent la tokenisation visuelle qui explore deux approches primaires: les représentations de jetons continues et discrètes. Les autoencodeurs variationnels établissent des espaces latents continus qui maintiennent une forte fidélité visuelle, devenant fondamentale dans le développement du modèle de diffusion. Des méthodes discrètes comme VQ-VAE et VQGAN permettent une modélisation autorégressive simple mais rencontrent des limitations importantes, y compris l'effondrement du livre de codes et la perte d'informations.
Autoregressive image generation evolves from computationally intensive pixel-based methods to more efficient token-based strategies. While models like DALL-E show promising results, hybrid methods such as GIVT and MAR introduce complex architectural modifications to improve generation quality, rendering the traditional autoregressive modeling pipeline complicated.
La génération d'images autorégressive évolue à partir de méthodes basées sur des pixels intensives en calcul vers des stratégies plus efficaces basées sur des jetons. Alors que des modèles comme Dall-E montrent des résultats prometteurs, des méthodes hybrides telles que GIVT et MAR introduisent des modifications architecturales complexes pour améliorer la qualité de la génération, rendant le pipeline de modélisation autorégressif traditionnel compliqué.
To bridge this critical gap between continuous and discrete token representations in visual generation, researchers from the University of Hong Kong, ByteDance Seed, Ecole Polytechnique, and Peking University propose TokenBridge. It aims to utilize the strong representation capacity of continuous tokens while maintaining the modeling simplicity of discrete tokens. TokenBridge decouples the discretization process from initial tokenizer training by introducing a novel post-training quantization technique. Moreover, it implements a unique dimension-wise quantization strategy that independently discretizes each feature dimension, complemented by a lightweight autoregressive prediction mechanism. It efficiently manages the expanded token space while preserving high-quality visual generation capabilities.
Pour combler cet écart critique entre les représentations de jetons continues et discrètes dans la génération visuelle, les chercheurs de l'Université de Hong Kong, des semences de Bytedance, de l'Ecole Polytechnique et de l'Université de Pékin proposent Tokenbridge. Il vise à utiliser la forte capacité de représentation des jetons continus tout en maintenant la simplicité de modélisation des jetons discrets. Tokenbridge découple le processus de discrétisation de la formation initiale de tokenzer en introduisant une nouvelle technique de quantification post-formation. De plus, il met en œuvre une stratégie de quantification unique par dimension qui discrétise indépendamment chaque dimension de caractéristique, complétée par un mécanisme de prédiction autorégressif léger. Il gère efficacement l'espace de jeton élargi tout en préservant les capacités de génération visuelle de haute qualité.
TokenBridge introduces a training-free dimension-wise quantization technique that operates independently on each feature channel, effectively addressing previous token representation limitations. The approach capitalizes on two crucial properties of Variational Autoencoder features: their bounded nature due to KL constraints and near-Gaussian distribution.
Tokenbridge introduit une technique de quantification par dimension sans formation qui fonctionne indépendamment sur chaque canal de caractéristique, abordant efficacement les limitations de représentation des jetons précédents. L'approche capitalise sur deux propriétés cruciales des caractéristiques de l'autoencodeur variationnelles: leur nature limitée en raison des contraintes de KL et de la distribution presque gaussienne.
The autoregressive model adopts a Transformer architecture with two primary configurations: a default L model comprising 32 blocks with 1024 width (approx 400 million parameters) for initial studies and a larger H model with 40 blocks and 1280 width (around 910 million parameters) for final evaluations. This design allows a detailed exploration of the proposed quantization strategy across different model scales.
Le modèle autorégressif adopte une architecture de transformateur avec deux configurations principales: un modèle L par défaut comprenant 32 blocs avec 1024 largeur (environ 400 millions de paramètres) pour les études initiales et un modèle H plus grand avec 40 blocs et 1280 largeur (environ 910 millions de paramètres) pour les évaluations finales. Cette conception permet une exploration détaillée de la stratégie de quantification proposée sur différentes échelles de modèle.
The results demonstrate that TokenBridge outperforms traditional discrete token models, achieving superior Frechet Inception Distance (FID) with significantly fewer parameters. For instance, TokenBridge-L secures an FID of 1.76 with only 486 million parameters, contrasting with LlamaGen's 2.18 using 3.1 billion parameters. When benchmarked against continuous approaches, TokenBridge-L outperforms GIVT, achieving a FID of 1.76 versus 3.35.
Les résultats démontrent que Tokenbridge surpasse les modèles de jetons discrets traditionnels, atteignant une distance de création de Frechet supérieure (FID) avec beaucoup moins de paramètres. Par exemple, Tokenbridge-L sécurise un FID de 1,76 avec seulement 486 millions de paramètres, contrastant avec 2,18 de Llamagen en utilisant 3,1 milliards de paramètres. Lorsqu'il est compliqué contre les approches continues, Tokenbridge-L surpasse Givt, atteignant un FID de 1,76 contre 3,35.
The H-model configuration further validates the method's effectiveness, matching MAR-H in FID (1.55) while delivering superior Inception Score and Recall metrics with marginally fewer parameters. These results highlight TokenBridge's capability to bridge discrete and continuous token representations.
La configuration du modèle H valide en outre l'efficacité de la méthode, correspondant à MAR-H dans FID (1,55) tout en fournissant un score de création supérieur et des mesures de rappel avec légèrement moins de paramètres. Ces résultats mettent en évidence la capacité de Tokenbridge à combler des représentations de jeton discrètes et continues.
In conclusion, researchers present TokenBridge, which bridges the longstanding gap between discrete and continuous token representations. It achieves high-quality visual generation with remarkable efficiency by introducing a post-training quantization approach and dimension-wise autoregressive decomposition. The research demonstrates that discrete token approaches using standard cross-entropy loss can compete with state-of-the-art continuous methods, eliminating the need for complex distribution modeling techniques. This finding opens a promising pathway for future investigations, potentially transforming how researchers conceptualize and implement token-based visual synthesis technologies.
En conclusion, les chercheurs présentent Tokenbridge, qui comble l'écart de longue date entre les représentations de jetons discrets et continus. Il réalise une génération visuelle de haute qualité avec une efficacité remarquable en introduisant une approche de quantification post-formation et une décomposition autorégressive par dimension. La recherche démontre que des approches de jetons discrètes utilisant une perte de croisement standard peuvent rivaliser avec des méthodes continues de pointe, éliminant le besoin de techniques de modélisation de distribution complexes. Cette découverte ouvre une voie prometteuse pour les enquêtes futures, potentiellement transformer la façon dont les chercheurs conceptualisent et mettent en œuvre des technologies de synthèse visuelle basées sur des jetons.
Check out the Paper, GitHub Page and Project. All credit for this research goes to the researchers of this project. Also, feel free to follow us on Twitter and don’t forget to join our 85k+ ML SubReddit.
Consultez le papier, la page GitHub et le projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'hésitez pas à nous suivre sur Twitter et n'oubliez pas de rejoindre notre sous-trède 85k + ML.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- Dawgz Ai ($ dagz) capte l'attention comme l'une des préventes cryptographiques les plus prometteuses de 2025
- Apr 30, 2025 at 08:55 pm
- Pour de nombreux investisseurs cryptographiques, en particulier ceux qui recherchent une croissance potentiellement explosive, l'attrait de trouver le prochain gros jeton avant qu'il n'arrive le marché grand public est fort.
-
- Fiobit - Meilleure plate-forme de mine de nuages Bitcoin globale en 2025
- Apr 30, 2025 at 08:55 pm
- À mesure que l'exploitation traditionnelle de la cryptographie devient de plus en plus coûteuse en raison du matériel, de l'électricité et des barrières techniques, l'exploitation de nuage émerge comme plus
-
-
- L'indice de la chaîne de macro clignote le premier signal d'achat depuis 2022, faisant allusion à Bitcoin (BTC) entre dans un nouveau taureau
- Apr 30, 2025 at 08:50 pm
- Un indicateur clé de Bitcoin (BTC) qui a signalé avec précision le bas du marché 2022 vient de clignoter un autre signal d'achat, suggérant que la crypto-monnaie pourrait entrer dans une nouvelle phase taureau.
-
-
-
- Le bitcoin et l'or divergent alors que la montée fulgurante de la BTC précède un récent retrait
- Apr 30, 2025 at 08:40 pm
- De novembre 2022 à novembre 2024, l'or et le bitcoin se sont déplacés dans une corrélation relativement serrée, l'or gagnant 67% tandis que le bitcoin plus volatil a bondi de près de 400%.
-
-
- RWA Protocol Crayer Finance déploie 10 millions de dollars de liquidités à partir de marques Open Campus et AnimOCA pour faciliter les prêts étudiants Defi
- Apr 30, 2025 at 08:40 pm
- Entrée: 30 avril 2025 - Crayon Finance, le protocole du prêt réel du prêt étudiant (RWA) sur la chaîne Edu co-incubée par les marques Animoca et HackQuest, a annoncé aujourd'hui que les marques Open Campus et AnimOCA ont déployé 10 millions de dollars de liquidité en tant que garantie de prêt pour faciliter les prêts étudiants Defi sur la plate-forme financière de crayon.