시가총액: $3.1678T -3.780%
거래량(24시간): $135.9315B 30.070%
  • 시가총액: $3.1678T -3.780%
  • 거래량(24시간): $135.9315B 30.070%
  • 공포와 탐욕 지수:
  • 시가총액: $3.1678T -3.780%
암호화
주제
암호화
소식
cryptostopics
비디오
최고의 뉴스
암호화
주제
암호화
소식
cryptostopics
비디오
bitcoin
bitcoin

$102145.347630 USD

-2.79%

ethereum
ethereum

$2433.100596 USD

-7.19%

tether
tether

$1.000331 USD

-0.01%

xrp
xrp

$2.108643 USD

-4.65%

bnb
bnb

$635.810177 USD

-4.54%

solana
solana

$146.177937 USD

-5.05%

usd-coin
usd-coin

$0.999828 USD

0.00%

tron
tron

$0.276248 USD

1.27%

dogecoin
dogecoin

$0.172078 USD

-9.59%

cardano
cardano

$0.629322 USD

-6.68%

hyperliquid
hyperliquid

$33.937667 USD

-4.46%

sui
sui

$2.969578 USD

-7.27%

chainlink
chainlink

$13.059499 USD

-6.18%

stellar
stellar

$0.259762 USD

-3.08%

unus-sed-leo
unus-sed-leo

$8.739283 USD

-2.20%

암호화폐 뉴스 기사

Token-Mol : 분자 사전 훈련을위한 대규모 언어 모델

2025/05/13 17:15

최근 몇 년간 인공 지능 (AI) 기술, 특히 딥 러닝 (DL)의 심오한 발전이 목격되었으며, 이는 약물 개발의 여러 측면에 점차 영향을 미쳤습니다.

Token-Mol : 분자 사전 훈련을위한 대규모 언어 모델

Drug discovery is a remarkably intricate journey that has recently been revolutionized by rapid advances in artificial intelligence (AI) technologies, particularly deep learning (DL), which has been progressively impacting multiple facets of drug development. These technologies are accelerating in innovative drug research. However, the high cost associated with acquiring annotated data sets in drug discovery remains a significant impediment to the advancement in this field. Recently, the rapid evolution of unsupervised learning frameworks, epitomized by BERT1 and GPT2, has introduced unsupervised chemical and biological pre-training models across disciplines such as chemistry3,4,5,6,7,8,9,10,11,12, and biology13,14,15,16. These models undergo large-scale unsupervised training to learn representations of small molecules or proteins, subsequently fine-tuned for specific applications. By leveraging unsupervised learning on large-scale datasets, these pre-training models effectively address the challenges associated with sparse labeling and suboptimal out-of-distribution generalization, leading to improved performance17.

약물 발견은 최근 인공 지능 (AI) 기술, 특히 딥 러닝 (DL)의 급속한 발전으로 혁명을 겪은 놀랍도록 복잡한 여정으로, 약물 개발의 여러 측면에 점차 영향을 미쳤습니다. 이러한 기술은 혁신적인 약물 연구에서 가속화되고 있습니다. 그러나 약물 발견에서 주석이 달린 데이터 세트를 획득하는 것과 관련된 높은 비용은이 분야의 발전에 중요한 장애물로 남아 있습니다. 최근 BERT1 및 GPT2에 의해 epitomized 비 감독 학습 프레임 워크의 빠른 진화는 화학 3,4,5,6,7,9,10,11,12, 생물학 13,15,16과 같은 분야에서 감독되지 않은 화학 및 생물학적 사전 훈련 모델을 도입했습니다. 이 모델들은 소분자 또는 단백질의 표현을 배우기 위해 대규모 감독되지 않은 훈련을 받았으며, 그 후 특정 응용 분야에 미세 조정됩니다. 대규모 데이터 세트에서 감독되지 않은 학습을 활용함으로써 이러한 사전 훈련 모델은 드문 레이블링 및 차선책이없는 일반화와 관련된 문제를 효과적으로 해결하여 성능 향상 17입니다.

Large-scale molecular pre-training models can be broadly categorized into two main groups: models based on chemical language and models utilizing molecular graphs. First, chemical language models encode molecular structures using representations such as simplified molecular input line entry system (SMILES)18 or self-referencing embedded strings (SELFIES)19. They employ training methodologies akin to BERT or GPT, well-established in natural language processing (NLP). Notable examples include SMILES-BERT20, MolGPT21, Chemformer22, and Multitask Text and Chemistry T523, which exhibit architectural similarities to universal or general NLP models such as LLaMA24.

대규모 분자 사전 훈련 모델은 두 가지 주요 그룹으로 광범위하게 분류 될 수 있습니다. 화학 언어를 기반으로 한 모델과 분자 그래프를 사용하는 모델. 먼저, 화학 언어 모델은 단순화 된 분자 입력 라인 입력 시스템 (Smiles) 18 또는 자체 참조 임베디드 스트링 (Selfies)과 같은 표현을 사용하여 분자 구조를 인코딩합니다. 그들은 NLP (Natural Language Processing)에서 잘 확립 된 Bert 또는 GPT와 유사한 교육 방법론을 사용합니다. 주목할만한 예로는 Smiles-Bert20, Molgpt21, Chemformer22 및 Multitask 텍스트 및 화학 T523이 포함되며, 이는 LLAMA24와 같은 보편적 또는 일반적인 NLP 모델과 아키텍처 유사성을 나타냅니다.

Second, graph-based molecular pre-trained models exhibit higher versatility. They represent molecules in a graphical format, with nodes for atoms and edges for chemical bonds. Pre-training methodologies include various techniques, such as random masking of atom types, contrastive learning, and context prediction25,26,27. Unlike language-based models, graph-based molecular pre-trained models inherently incorporate geometric information, as demonstrated by methods like GEM28 and Uni-Mol29.

둘째, 그래프 기반 분자 미리 훈련 된 모델은 더 높은 다양성을 나타냅니다. 그것들은 그래픽 형식의 분자를 나타내며, 원자용 노드와 화학적 결합에 대한 가장자리를 나타냅니다. 사전 훈련 방법론에는 원자 유형의 무작위 마스킹, 대조 학습 및 상황 예측 25,26,27과 같은 다양한 기술이 포함됩니다. 언어 기반 모델과 달리, 그래프 기반 분자 미리 훈련 된 모델은 본질적으로 GEM28 및 UNI-MOL29와 같은 방법에 의해 입증 된 바와 같이 기하학적 정보를 통합합니다.

Despite their advancements, both classes of models exhibit distinct limitations. Large-scale molecular pre-training models based on the chemical language face a significant constraint in their inability to inherently process 3D structural information, which is pivotal for determining the physical, chemical, and biological properties of molecules28,29. Consequently, these models are inadequate for downstream tasks that involve 3D structures, such as molecular conformation generation and 3D structure-based drug design. In contrast, graph-based molecular pre-trained models can effectively incorporate 3D information. However, existing approaches primarily focus on learning molecular representations for property prediction rather than molecular generation. Moreover, integrating these models with universal NLP models presents considerable challenges. As a result, a comprehensive model capable of addressing all drug design tasks remains elusive. To address the limitations of these two model types and develop a pre-trained model suitable for all drug design scenarios, and easily integrable with existing general large language models, is pressing.

그들의 발전에도 불구하고 두 종류의 모델은 뚜렷한 한계를 나타냅니다. 화학 언어에 기초한 대규모 분자 사전 훈련 모델은 본질적으로 3D 구조 정보를 처리 할 수 ​​없다는 점에서 중요한 제약을 받고 있으며, 이는 분자 28,29의 물리적, 화학적, 생물학적 특성을 결정하는 데 중추적이다. 결과적으로, 이들 모델은 분자 형태 생성 및 3D 구조 기반 약물 설계와 같은 3D 구조를 포함하는 다운 스트림 작업에 부적절하다. 대조적으로, 그래프 기반 분자 사전 훈련 된 모델은 3D 정보를 효과적으로 통합 할 수있다. 그러나 기존 접근법은 주로 분자 생성보다는 속성 예측에 대한 분자 표현 학습에 중점을 둡니다. 또한 이러한 모델을 범용 NLP 모델과 통합하는 것은 상당한 과제를 제시합니다. 결과적으로, 모든 약물 설계 작업을 해결할 수있는 포괄적 인 모델은 여전히 ​​애매 모호합니다. 이 두 모델 유형의 한계를 해결하고 모든 약물 설계 시나리오에 적합하고 기존의 일반적인 대형 언어 모델과 쉽게 통합 할 수있는 미리 훈련 된 모델을 개발하기 위해서는 압박을 받고 있습니다.

The emergence of universal artificial intelligence models holds promise in this domain. By leveraging vast amounts of data, these models acquire expert knowledge across diverse fields, rendering them capable of providing valuable assistance to practitioners in various domains2,24,30,31. Recent studies have demonstrated that GPT-4 exhibits a deep understanding of key concepts in drug discovery, including therapeutic proteins and the fundamental principles governing the design of small molecule-based and other types of drugs. Although its proficiency in specific drug design tasks, such as de novo molecule generation, molecular structure alteration, drug-target interaction prediction, molecular property estimation, and retrosynthetic pathway prediction, requires further improvement, it has achieved promising results in tasks like molecular structure generation and drug-target interaction prediction32. Among these capabilities, the application of a token-based approach by the above models to handle continuous spatial data is particularly noteworthy.

보편적 인 인공 지능 모델의 출현은이 영역에서 약속을 가지고 있습니다. 방대한 양의 데이터를 활용하여 이러한 모델은 다양한 분야에서 전문가 지식을 습득하여 다양한 도메인의 실무자에게 2,24,30,31의 소중한 지원을 제공 할 수 있습니다. 최근의 연구에 따르면 GPT-4는 치료 단백질과 소분자 기반 및 기타 유형의 약물의 설계에 관한 기본 원리를 포함하여 약물 발견의 주요 개념에 대한 깊은 이해를 보여줍니다. De Novo 분자 생성, 분자 구조 변경, 약물-표적 상호 작용 예측, 분자 특성 추정 및 회고 경로 예측과 같은 특정 약물 설계 작업의 능력은 추가 개선이 필요하지만 분자 구조 생성 및 약물-표적 상호 작용 예측과 같은 작업에서 유망한 결과를 달성했습니다. 이러한 기능 중에서, 상기 모델에 의한 토큰 기반 접근법의 연속 공간 데이터를 처리하는 것은 특히 주목할 만하다.

Building on this concept, Born et al. introduced the Regression Transformer, which integrates regression tasks by encoding numerical values as tokens. Nonetheless, this method does not fully address the structural complexities of molecules. Additionally, Flam-Shepherd and Aspuru-Guzik proposed directly tokenizing 3D atomic coordinates (XYZ) to represent molecular 3D structures. Concurrently, the BindGPT framework employs a similar approach to generate molecular structures and their corresponding 3D coordinates. While the performance of these models still needs enhancement, both approaches have exhibited promising outcomes in relevant drug design tasks. These results highlight the potential of large models to grasp the semantics of numerical values and affirm the feasibility of employing token-only models to handle continuous data. However, directly training language models on Cartesian coordinates of atoms presents unique challenges. For larger molecules, the extensive XYZ coordinates can result in excessively long sequences, posing difficulties for the model's learning process. Furthermore, achieving invariance through random translation and rotation does not necessarily confer equivari

이 개념을 바탕으로 Born et al. 숫자 값을 토큰으로 인코딩하여 회귀 작업을 통합하는 회귀 변압기를 도입했습니다. 그럼에도 불구하고,이 방법은 분자의 구조적 복잡성을 완전히 다루지 않습니다. 또한 Flam-Shepherd와 Aspuru-Guzik은 분자 3D 구조를 나타내는 3D 원자 좌표 (XYZ)를 직접 토큰 화하는 것을 제안했습니다. 동시에, Bindgpt 프레임 워크는 유사한 접근법을 사용하여 분자 구조 및 해당 3D 좌표를 생성합니다. 이러한 모델의 성능은 여전히 ​​향상이 필요하지만, 두 가지 접근 방식 모두 관련 약물 설계 작업에서 유망한 결과를 보여주었습니다. 이 결과는 수치 값의 의미를 파악할 수있는 큰 모델의 잠재력을 강조하고 연속 데이터를 처리하기 위해 토큰 전용 모델을 사용하는 타당성을 확인합니다. 그러나 원자의 직교 좌표에 대한 언어 모델을 직접 훈련시키는 것은 독특한 과제를 제시합니다. 더 큰 분자의 경우, 광범위한 XYZ 좌표는 지나치게 긴 서열을 초래하여 모델의 학습 과정에 어려움을 겪을 수 있습니다. 또한, 임의의 번역 및 회전을 통한 불변을 달성하는 것이 반드시 equivari를 부여하는 것은 아닙니다.

부인 성명:info@kdj.com

제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!

본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.

2025年06月07日 에 게재된 다른 기사