![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
近年、人工知能(AI)技術、特に深い学習(DL)の深い進歩が目撃されており、これは医薬品開発の複数の側面に徐々に影響を与えています。
Drug discovery is a remarkably intricate journey that has recently been revolutionized by rapid advances in artificial intelligence (AI) technologies, particularly deep learning (DL), which has been progressively impacting multiple facets of drug development. These technologies are accelerating in innovative drug research. However, the high cost associated with acquiring annotated data sets in drug discovery remains a significant impediment to the advancement in this field. Recently, the rapid evolution of unsupervised learning frameworks, epitomized by BERT1 and GPT2, has introduced unsupervised chemical and biological pre-training models across disciplines such as chemistry3,4,5,6,7,8,9,10,11,12, and biology13,14,15,16. These models undergo large-scale unsupervised training to learn representations of small molecules or proteins, subsequently fine-tuned for specific applications. By leveraging unsupervised learning on large-scale datasets, these pre-training models effectively address the challenges associated with sparse labeling and suboptimal out-of-distribution generalization, leading to improved performance17.
創薬は非常に複雑な旅であり、最近、人工知能(AI)技術の急速な進歩、特に深い学習(DL)に革命をもたらし、医薬品開発の複数の側面に徐々に影響を与えています。これらの技術は、革新的な薬物研究で加速しています。ただし、創薬の注釈付きデータセットの取得に関連する高コストは、この分野の進歩に対する大きな障害のままです。最近、BERT1およびGPT2によって象徴される監視されていない学習フレームワークの急速な進化は、化学3,4,5,5,6,7,8,9,10,11,12、および生物学13,14,15,16などの分野に監視されていない化学的および生物学的プレトレーニングモデルを導入しました。これらのモデルは、小分子またはタンパク質の表現を学習するための大規模な監視されていないトレーニングを受け、その後特定の用途向けに微調整されます。大規模なデータセットで監視されていない学習を活用することにより、これらのトレーニング前のモデルは、スパースラベル付けと分散型以下の外れの一般化に関連する課題に効果的に対処し、パフォーマンスの改善につながります17。
Large-scale molecular pre-training models can be broadly categorized into two main groups: models based on chemical language and models utilizing molecular graphs. First, chemical language models encode molecular structures using representations such as simplified molecular input line entry system (SMILES)18 or self-referencing embedded strings (SELFIES)19. They employ training methodologies akin to BERT or GPT, well-established in natural language processing (NLP). Notable examples include SMILES-BERT20, MolGPT21, Chemformer22, and Multitask Text and Chemistry T523, which exhibit architectural similarities to universal or general NLP models such as LLaMA24.
大規模な分子前トレーニングモデルは、化学言語と分子グラフを利用したモデルに基づくモデルの2つの主要なグループに広く分類できます。第一に、化学言語モデルは、単純化された分子入力ラインエントリシステム(Smiles)18または自己参照埋め込み弦(セルフィー)などの表現を使用して分子構造をエンコードします。彼らは、自然言語処理(NLP)で確立された、BertやGPTに似たトレーニング方法論を採用しています。注目すべき例には、LLAMA24などのユニバーサルまたは一般的なNLPモデルと建築的類似性を示すSmiles-Bert20、Molgpt21、Chemformer22、およびMultiTask Text and Chemistry T523が含まれます。
Second, graph-based molecular pre-trained models exhibit higher versatility. They represent molecules in a graphical format, with nodes for atoms and edges for chemical bonds. Pre-training methodologies include various techniques, such as random masking of atom types, contrastive learning, and context prediction25,26,27. Unlike language-based models, graph-based molecular pre-trained models inherently incorporate geometric information, as demonstrated by methods like GEM28 and Uni-Mol29.
第二に、グラフベースの分子前訓練モデルは、より高い汎用性を示します。それらはグラフィカル形式で分子を表し、原子のノードと化学結合のエッジを備えています。トレーニング前の方法論には、原子タイプのランダムマスキング、対照学習、コンテキスト予測などのさまざまな手法に含まれます25,26,27が含まれます。言語ベースのモデルとは異なり、GEM28やUni-Mol29などの方法で示されているように、グラフベースの分子前訓練モデルには幾何学的情報が本質的に組み込まれています。
Despite their advancements, both classes of models exhibit distinct limitations. Large-scale molecular pre-training models based on the chemical language face a significant constraint in their inability to inherently process 3D structural information, which is pivotal for determining the physical, chemical, and biological properties of molecules28,29. Consequently, these models are inadequate for downstream tasks that involve 3D structures, such as molecular conformation generation and 3D structure-based drug design. In contrast, graph-based molecular pre-trained models can effectively incorporate 3D information. However, existing approaches primarily focus on learning molecular representations for property prediction rather than molecular generation. Moreover, integrating these models with universal NLP models presents considerable challenges. As a result, a comprehensive model capable of addressing all drug design tasks remains elusive. To address the limitations of these two model types and develop a pre-trained model suitable for all drug design scenarios, and easily integrable with existing general large language models, is pressing.
その進歩にもかかわらず、両方のクラスのモデルは明確な制限を示します。化学言語に基づく大規模な分子前訓練モデルは、3D構造情報を本質的に処理できないことに大きな制約に直面しています。これは、分子の物理的、化学的、生物学的特性を決定するために極めて重要です28,29その結果、これらのモデルは、分子コンフォメーション生成や3D構造ベースの薬物設計などの3D構造を含む下流タスクには不十分です。対照的に、グラフベースの分子前訓練モデルは、3D情報を効果的に組み込むことができます。ただし、既存のアプローチは、主に分子生成ではなく、特性予測の分子表現を学習することに焦点を当てています。さらに、これらのモデルをユニバーサルNLPモデルと統合すると、かなりの課題があります。その結果、すべての薬物設計タスクに対処できる包括的なモデルは、とらえどころのないままです。これら2つのモデルタイプの制限に対処し、すべての薬物設計シナリオに適した事前に訓練されたモデルを開発するために、既存の一般的な大手言語モデルと簡単に統合できることが差し迫っています。
The emergence of universal artificial intelligence models holds promise in this domain. By leveraging vast amounts of data, these models acquire expert knowledge across diverse fields, rendering them capable of providing valuable assistance to practitioners in various domains2,24,30,31. Recent studies have demonstrated that GPT-4 exhibits a deep understanding of key concepts in drug discovery, including therapeutic proteins and the fundamental principles governing the design of small molecule-based and other types of drugs. Although its proficiency in specific drug design tasks, such as de novo molecule generation, molecular structure alteration, drug-target interaction prediction, molecular property estimation, and retrosynthetic pathway prediction, requires further improvement, it has achieved promising results in tasks like molecular structure generation and drug-target interaction prediction32. Among these capabilities, the application of a token-based approach by the above models to handle continuous spatial data is particularly noteworthy.
普遍的な人工知能モデルの出現は、このドメインで有望です。膨大な量のデータを活用することにより、これらのモデルは多様な分野で専門知識を獲得し、さまざまなドメイン2,24,30,31の実務家に貴重な支援を提供できるようになります。最近の研究では、GPT-4が、治療タンパク質や小分子ベースの薬物およびその他の種類の薬物の設計を管理する基本原則など、創薬の重要な概念を深く理解することを示しています。 De Novo分子の生成、分子構造の変化、薬物標的相互作用予測、分子特性推定、および脳化変調経路予測などの特定の薬物設計タスクの習熟度は、さらなる改善が必要ですが、分子構造の生成や薬物標的相互作用予測などのタスクで有望な結果を達成しました。これらの機能の中で、連続空間データを処理するための上記のモデルによるトークンベースのアプローチを適用することは特に注目に値します。
Building on this concept, Born et al. introduced the Regression Transformer, which integrates regression tasks by encoding numerical values as tokens. Nonetheless, this method does not fully address the structural complexities of molecules. Additionally, Flam-Shepherd and Aspuru-Guzik proposed directly tokenizing 3D atomic coordinates (XYZ) to represent molecular 3D structures. Concurrently, the BindGPT framework employs a similar approach to generate molecular structures and their corresponding 3D coordinates. While the performance of these models still needs enhancement, both approaches have exhibited promising outcomes in relevant drug design tasks. These results highlight the potential of large models to grasp the semantics of numerical values and affirm the feasibility of employing token-only models to handle continuous data. However, directly training language models on Cartesian coordinates of atoms presents unique challenges. For larger molecules, the extensive XYZ coordinates can result in excessively long sequences, posing difficulties for the model's learning process. Furthermore, achieving invariance through random translation and rotation does not necessarily confer equivari
この概念に基づいて、Born et al。回帰変圧器を導入しました。これは、数値値をトークンとしてエンコードすることで回帰タスクを統合します。それにもかかわらず、この方法は分子の構造的複雑さに完全に対処していません。さらに、Flam-ShepherdとAspuru-Guzikは、分子3D構造を表すために3D原子座標(XYZ)を直接トークン化することを提案しました。同時に、BINDGPTフレームワークは同様のアプローチを採用して、分子構造とそれらに対応する3D座標を生成します。これらのモデルのパフォーマンスには依然として強化が必要ですが、両方のアプローチでは、関連する薬物設計タスクに有望な結果が示されています。これらの結果は、数値のセマンティクスを把握する大きなモデルの可能性を強調し、トークンのみのモデルを使用して連続データを処理する可能性を確認します。ただし、原子のデカルト座標に関する言語モデルを直接トレーニングすることは、独自の課題を提示します。より大きな分子の場合、広範なXYZ座標は、モデルの学習プロセスに困難をもたらすことができます。さらに、ランダムな翻訳と回転を通じて不変性を達成することは、必ずしもequivariを授与するわけではありません
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。