Capitalisation boursière: $3.1678T -3.780%
Volume(24h): $135.9315B 30.070%
  • Capitalisation boursière: $3.1678T -3.780%
  • Volume(24h): $135.9315B 30.070%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $3.1678T -3.780%
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
Top nouvelles
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
bitcoin
bitcoin

$102145.347630 USD

-2.79%

ethereum
ethereum

$2433.100596 USD

-7.19%

tether
tether

$1.000331 USD

-0.01%

xrp
xrp

$2.108643 USD

-4.65%

bnb
bnb

$635.810177 USD

-4.54%

solana
solana

$146.177937 USD

-5.05%

usd-coin
usd-coin

$0.999828 USD

0.00%

tron
tron

$0.276248 USD

1.27%

dogecoin
dogecoin

$0.172078 USD

-9.59%

cardano
cardano

$0.629322 USD

-6.68%

hyperliquid
hyperliquid

$33.937667 USD

-4.46%

sui
sui

$2.969578 USD

-7.27%

chainlink
chainlink

$13.059499 USD

-6.18%

stellar
stellar

$0.259762 USD

-3.08%

unus-sed-leo
unus-sed-leo

$8.739283 USD

-2.20%

Articles d’actualité sur les crypto-monnaies

Token-Mol: un modèle de langue à grande échelle pour la pré-formation moléculaire

May 13, 2025 at 05:15 pm

Les dernières années ont connu des progrès profonds dans les technologies de l'intelligence artificielle (IA), en particulier l'apprentissage en profondeur (DL), qui a eu un impact progressivement sur plusieurs facettes de développement de médicaments.

Token-Mol: un modèle de langue à grande échelle pour la pré-formation moléculaire

Drug discovery is a remarkably intricate journey that has recently been revolutionized by rapid advances in artificial intelligence (AI) technologies, particularly deep learning (DL), which has been progressively impacting multiple facets of drug development. These technologies are accelerating in innovative drug research. However, the high cost associated with acquiring annotated data sets in drug discovery remains a significant impediment to the advancement in this field. Recently, the rapid evolution of unsupervised learning frameworks, epitomized by BERT1 and GPT2, has introduced unsupervised chemical and biological pre-training models across disciplines such as chemistry3,4,5,6,7,8,9,10,11,12, and biology13,14,15,16. These models undergo large-scale unsupervised training to learn representations of small molecules or proteins, subsequently fine-tuned for specific applications. By leveraging unsupervised learning on large-scale datasets, these pre-training models effectively address the challenges associated with sparse labeling and suboptimal out-of-distribution generalization, leading to improved performance17.

La découverte de médicaments est un parcours remarquablement complexe qui a récemment été révolutionné par les progrès rapides des technologies de l'intelligence artificielle (IA), en particulier l'apprentissage en profondeur (DL), qui a eu un impact progressivement sur plusieurs facettes de développement de médicaments. Ces technologies accélèrent dans la recherche innovante en matière de médicaments. Cependant, le coût élevé associé à l'acquisition d'ensembles de données annotés dans la découverte de médicaments reste un obstacle important à l'avancement dans ce domaine. Récemment, l'évolution rapide des cadres d'apprentissage non supervisés, incarnés par Bert1 et GPT2, a introduit des modèles de pré-formation chimique et biologique non supervisés à travers des disciplines telles que la chimie3,4,5,6,7,8,9,11,11,12 et la biologie13,14,15,16. Ces modèles suivent une formation non supervisée à grande échelle pour apprendre des représentations de petites molécules ou protéines, par la suite affinées pour des applications spécifiques. En tirant parti d'un apprentissage non supervisé sur des ensembles de données à grande échelle, ces modèles de pré-formation abordent efficacement les défis associés à l'étiquetage clairsemé et à la généralisation sous-optimale hors distribution, conduisant à des performances améliorées17.

Large-scale molecular pre-training models can be broadly categorized into two main groups: models based on chemical language and models utilizing molecular graphs. First, chemical language models encode molecular structures using representations such as simplified molecular input line entry system (SMILES)18 or self-referencing embedded strings (SELFIES)19. They employ training methodologies akin to BERT or GPT, well-established in natural language processing (NLP). Notable examples include SMILES-BERT20, MolGPT21, Chemformer22, and Multitask Text and Chemistry T523, which exhibit architectural similarities to universal or general NLP models such as LLaMA24.

Les modèles de pré-formation moléculaire à grande échelle peuvent être largement classés en deux groupes principaux: des modèles basés sur le langage chimique et les modèles utilisant des graphiques moléculaires. Premièrement, les modèles de langage chimique codent les structures moléculaires en utilisant des représentations telles que le système d'entrée de ligne d'entrée moléculaire simplifié (SMILES) 18 ou les chaînes intégrées d'auto-référence (selfies) 19. Ils utilisent des méthodologies de formation semblables à Bert ou GPT, bien établies dans le traitement du langage naturel (PNL). Les exemples notables incluent Smiles-BERT20, Molgpt21, ChemFormer22 et le texte multitâche et la chimie T523, qui présentent des similitudes architecturales avec des modèles NLP universels ou généraux tels que LLAMA24.

Second, graph-based molecular pre-trained models exhibit higher versatility. They represent molecules in a graphical format, with nodes for atoms and edges for chemical bonds. Pre-training methodologies include various techniques, such as random masking of atom types, contrastive learning, and context prediction25,26,27. Unlike language-based models, graph-based molecular pre-trained models inherently incorporate geometric information, as demonstrated by methods like GEM28 and Uni-Mol29.

Deuxièmement, les modèles moléculaires basés sur des graphiques présentent une polyvalence plus élevée. Ils représentent des molécules dans un format graphique, avec des nœuds pour les atomes et les bords pour les liaisons chimiques. Les méthodologies pré-formation comprennent diverses techniques, telles que le masquage aléatoire des types d'atomes, l'apprentissage contrastif et la prédiction de contexte25,26,27. Contrairement aux modèles basés sur le langage, les modèles moléculaires basés sur des graphiques incorporent intrinsèquement des informations géométriques, comme le montrent des méthodes telles que GEM28 et UNI-Mol29.

Despite their advancements, both classes of models exhibit distinct limitations. Large-scale molecular pre-training models based on the chemical language face a significant constraint in their inability to inherently process 3D structural information, which is pivotal for determining the physical, chemical, and biological properties of molecules28,29. Consequently, these models are inadequate for downstream tasks that involve 3D structures, such as molecular conformation generation and 3D structure-based drug design. In contrast, graph-based molecular pre-trained models can effectively incorporate 3D information. However, existing approaches primarily focus on learning molecular representations for property prediction rather than molecular generation. Moreover, integrating these models with universal NLP models presents considerable challenges. As a result, a comprehensive model capable of addressing all drug design tasks remains elusive. To address the limitations of these two model types and develop a pre-trained model suitable for all drug design scenarios, and easily integrable with existing general large language models, is pressing.

Malgré leurs progrès, les deux classes de modèles présentent des limitations distinctes. Les modèles de pré-formation moléculaire à grande échelle basés sur le langage chimique sont confrontés à une contrainte significative dans leur incapacité à traiter intrinsèquement les informations structurelles 3D, qui est essentiel pour déterminer les propriétés physiques, chimiques et biologiques des molécules28,29. Par conséquent, ces modèles sont inadéquats pour les tâches en aval qui impliquent des structures 3D, telles que la génération de conformation moléculaire et la conception de médicaments basée sur la structure 3D. En revanche, les modèles moléculaires moléculaires basés sur des graphiques peuvent intégrer efficacement des informations 3D. Cependant, les approches existantes se concentrent principalement sur l'apprentissage des représentations moléculaires pour la prédiction des propriétés plutôt que sur la génération moléculaire. De plus, l'intégration de ces modèles avec des modèles de PNL universels présente des défis considérables. En conséquence, un modèle complet capable de traiter toutes les tâches de conception de médicaments reste insaisissable. Pour répondre aux limites de ces deux types de modèles et développer un modèle pré-formé adapté à tous les scénarios de conception de médicaments et facilement intégrable aux modèles de langue générale existants, fait pression.

The emergence of universal artificial intelligence models holds promise in this domain. By leveraging vast amounts of data, these models acquire expert knowledge across diverse fields, rendering them capable of providing valuable assistance to practitioners in various domains2,24,30,31. Recent studies have demonstrated that GPT-4 exhibits a deep understanding of key concepts in drug discovery, including therapeutic proteins and the fundamental principles governing the design of small molecule-based and other types of drugs. Although its proficiency in specific drug design tasks, such as de novo molecule generation, molecular structure alteration, drug-target interaction prediction, molecular property estimation, and retrosynthetic pathway prediction, requires further improvement, it has achieved promising results in tasks like molecular structure generation and drug-target interaction prediction32. Among these capabilities, the application of a token-based approach by the above models to handle continuous spatial data is particularly noteworthy.

L'émergence de modèles d'intelligence artificielle universelle est prometteuse dans ce domaine. En tirant parti de grandes quantités de données, ces modèles acquièrent des connaissances expertes dans divers domaines, ce qui les rend capables de fournir une assistance précieuse aux praticiens dans divers domaines2,24,30,31. Des études récentes ont démontré que le GPT-4 présente une compréhension approfondie des concepts clés de la découverte de médicaments, y compris les protéines thérapeutiques et les principes fondamentaux régissant la conception de petites types de médicaments à base de molécules et d'autres médicaments. Bien que sa maîtrise des tâches spécifiques de conception de médicaments, telles que la génération de molécules de novo, l'altération de la structure moléculaire, la prédiction d'interaction du médicament-cible,, l'estimation des propriétés moléculaires et la prédiction de la voie rétrosynthétique, nécessite une amélioration supplémentaire, il a obtenu des résultats prometteurs dans des tâches telles que la génération de structure moléculaire et la prédiction d'interaction de la structure des médicaments 32. Parmi ces capacités, l'application d'une approche basée sur des jetons par les modèles ci-dessus pour gérer les données spatiales continues est particulièrement remarquable.

Building on this concept, Born et al. introduced the Regression Transformer, which integrates regression tasks by encoding numerical values as tokens. Nonetheless, this method does not fully address the structural complexities of molecules. Additionally, Flam-Shepherd and Aspuru-Guzik proposed directly tokenizing 3D atomic coordinates (XYZ) to represent molecular 3D structures. Concurrently, the BindGPT framework employs a similar approach to generate molecular structures and their corresponding 3D coordinates. While the performance of these models still needs enhancement, both approaches have exhibited promising outcomes in relevant drug design tasks. These results highlight the potential of large models to grasp the semantics of numerical values and affirm the feasibility of employing token-only models to handle continuous data. However, directly training language models on Cartesian coordinates of atoms presents unique challenges. For larger molecules, the extensive XYZ coordinates can result in excessively long sequences, posing difficulties for the model's learning process. Furthermore, achieving invariance through random translation and rotation does not necessarily confer equivari

S'appuyant sur ce concept, Born et al. Introduit le transformateur de régression, qui intègre les tâches de régression en codant pour les valeurs numériques sous forme de jetons. Néanmoins, cette méthode ne traite pas pleinement des complexités structurelles des molécules. De plus, Flam-Shepherd et Aspuru-Guzik ont ​​proposé directement les coordonnées atomiques 3D (XYZ) pour représenter les structures 3D moléculaires. Parallèlement, le cadre BindGPT utilise une approche similaire pour générer des structures moléculaires et leurs coordonnées 3D correspondantes. Bien que les performances de ces modèles nécessitent encore une amélioration, les deux approches ont montré des résultats prometteurs dans les tâches pertinentes de conception de médicaments. Ces résultats mettent en évidence le potentiel de grands modèles pour saisir la sémantique des valeurs numériques et affirmer la faisabilité de l'utilisation de modèles de jeton uniquement pour gérer les données continues. Cependant, la formation directe des modèles de langage sur les coordonnées cartésiennes d'atomes présente des défis uniques. Pour les molécules plus grandes, les étendues coordonnées XYZ peuvent entraîner des séquences excessivement longues, posant des difficultés pour le processus d'apprentissage du modèle. En outre, la réalisation d'invariance par la traduction et la rotation aléatoires ne confèrent pas nécessairement Equivari

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Jun 07, 2025