Avec le développement rapide de l'intelligence artificielle, les modèles de grands langues sont de plus en plus utilisés pour relever divers défis scientifiques.

With the rapid development of artificial intelligence (AI), large language models (LLMs) are increasingly being used to address various scientific challenges. A crucial step in this process is converting domain-specific data into a format suitable for LLMs, typically a sequence of tokens. In chemistry, molecules are commonly represented by molecular linear notations, and chemical reactions are depicted as pairs of reactants and products. However, this approach does not capture the atomic and bond changes that occur during reactions, which are essential for chemical understanding and manipulation. To bridge this gap and facilitate seamless integration between chemistry and LLMs, we introduce ReactSeq, a reaction description language that decomposes chemical reactions into a series of molecular editing operations.
Avec le développement rapide de l'intelligence artificielle (IA), les modèles de grandes langues (LLM) sont de plus en plus utilisés pour relever divers défis scientifiques. Une étape cruciale dans ce processus consiste à convertir les données spécifiques au domaine en un format adapté aux LLM, généralement une séquence de jetons. En chimie, les molécules sont généralement représentées par des notations linéaires moléculaires et les réactions chimiques sont représentées comme des paires de réactifs et de produits. Cependant, cette approche ne capture pas les changements atomiques et des liaisons qui se produisent pendant les réactions, qui sont essentielles pour la compréhension et la manipulation chimiques. Pour combler cet écart et faciliter l'intégration transparente entre la chimie et les LLM, nous introduisons ReactSeq, un langage de description de réaction qui décompose les réactions chimiques dans une série d'opérations d'édition moléculaire.
Each ReactSeq token corresponds to a specific atomic or bond modification, enabling a step-by-step unfolding of the chemical transformation. We trained a language model for retrosynthesis prediction using ReactSeq and observed that it consistently outperformed existing methods in all benchmark tests. Furthermore, the model demonstrated promising emergent abilities, such as performing multistep synthesis planning in response to user requests and providing explanations for its predictions. To delve deeper into the capabilities of LLMs in navigating chemical space, we trained a model to predict reaction yield based on ReactSeq representations and achieved high performance in this task.
Chaque jeton ReactSeq correspond à une modification atomique ou liaison spécifique, permettant un dépliage étape par étape de la transformation chimique. Nous avons formé un modèle linguistique pour la prédiction de la rétrosynthèse à l'aide de ReactSeq et observé qu'il a systématiquement surpassé les méthodes existantes dans tous les tests de référence. En outre, le modèle a démontré des capacités émergentes prometteuses, telles que l'exécution de la planification de la synthèse en plusieurs étapes en réponse aux demandes des utilisateurs et de la fourniture d'explications de ses prédictions. Pour approfondir les capacités des LLM dans la navigation sur l'espace chimique, nous avons formé un modèle pour prédire le rendement de réaction basé sur les représentations ReactSeq et atteint des performances élevées dans cette tâche.
Our analysis indicates that the model learned to evaluate the feasibility of reactions based on chemical principles, highlighting the potential of LLMs to go beyond empirical patterns and develop a chemical understanding of the data. Finally, we used ReactSeq to generate universal and reliable representations of chemical reactions, facilitating efficient retrieval of relevant experimental procedures from literature databases. This capability paves the way for seamless integration between theoretical predictions and experimental observations, ultimately advancing chemical discovery and invention.
Notre analyse indique que le modèle a appris à évaluer la faisabilité des réactions basées sur des principes chimiques, mettant en évidence le potentiel des LLM pour aller au-delà des modèles empiriques et développer une compréhension chimique des données. Enfin, nous avons utilisé ReactSeq pour générer des représentations universelles et fiables des réactions chimiques, facilitant une récupération efficace des procédures expérimentales pertinentes des bases de données de la littérature. Cette capacité ouvre la voie à l'intégration transparente entre les prédictions théoriques et les observations expérimentales, faisant finalement progresser la découverte et l'invention chimique.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.