시가총액: $3.2264T 7.740%
거래량(24시간): $162.8717B 32.210%
  • 시가총액: $3.2264T 7.740%
  • 거래량(24시간): $162.8717B 32.210%
  • 공포와 탐욕 지수:
  • 시가총액: $3.2264T 7.740%
암호화
주제
암호화
소식
cryptostopics
비디오
최고의 뉴스
암호화
주제
암호화
소식
cryptostopics
비디오
bitcoin
bitcoin

$102645.326745 USD

3.86%

ethereum
ethereum

$2235.824185 USD

20.09%

tether
tether

$0.999978 USD

-0.04%

xrp
xrp

$2.318227 USD

6.77%

bnb
bnb

$626.285788 USD

2.98%

solana
solana

$162.866519 USD

8.45%

usd-coin
usd-coin

$1.000142 USD

0.00%

dogecoin
dogecoin

$0.196724 USD

10.69%

cardano
cardano

$0.771249 USD

9.92%

tron
tron

$0.256040 USD

2.64%

sui
sui

$3.963536 USD

10.47%

chainlink
chainlink

$15.896137 USD

10.95%

avalanche
avalanche

$22.320543 USD

11.21%

stellar
stellar

$0.296058 USD

10.87%

shiba-inu
shiba-inu

$0.000014 USD

9.85%

암호화폐 뉴스 기사

멀티 모달 AI는 여러 데이터 유형을 사용하여 이해, 생성 및 응답 할 수있는 시스템을 생성하도록 진화합니다.

2025/05/09 14:26

멀티 모달 AI는 단일 대화 나 작업 내에서 여러 데이터 유형을 사용하여 이해, 생성 및 응답 할 수있는 시스템을 생성하기 위해 빠르게 발전합니다.

멀티 모달 AI는 여러 데이터 유형을 사용하여 이해, 생성 및 응답 할 수있는 시스템을 생성하도록 진화합니다.

Multimodal AI is rapidly evolving to create systems that can understand, generate, and respond using multiple data types within a single conversation or task. This capability, crucial for seamless human-AI communication, is being actively researched as users increasingly engage AI for tasks like image captioning, text-based photo editing, and style transfers.

멀티 모달 AI는 단일 대화 나 작업 내에서 여러 데이터 유형을 사용하여 이해, 생성 및 응답 할 수있는 시스템을 만들기 위해 빠르게 발전하고 있습니다. 원활한 휴먼 -AI 커뮤니케이션에 중요한이 기능은 사용자가 이미지 캡션, 텍스트 기반 사진 편집 및 스타일 전송과 같은 작업에 대해 AI를 점점 더 많이 참여함에 따라 적극적으로 연구되고 있습니다.

A major obstacle in this area stems from the misalignment between language-based semantic understanding and the visual fidelity required in image synthesis or editing. When separate models handle different modalities, the outputs often become inconsistent, leading to poor coherence or inaccuracies. For instance, the visual model might excel in an image but fail to comprehend the nuanced instructions, while the language model might understand the prompt but cannot shape it visually.

이 분야의 주요 장애물은 언어 기반 의미 론적 이해와 이미지 합성 또는 편집에 필요한 시각적 충실도 사이의 오정렬에서 비롯됩니다. 별도의 모델이 서로 다른 양식을 처리하면 출력이 일관성이 없어서 일관성이 나쁘거나 부정확합니다. 예를 들어, 시각적 모델은 이미지에서 탁월하지만 미묘한 지침을 이해하지 못하는 반면 언어 모델은 프롬프트를 이해할 수 있지만 시각적으로 형성 할 수는 없습니다.

This approach also demands significant compute resources and retraining efforts for each domain. Thus, the inability to seamlessly link vision and language into a coherent and interactive experience remains one of the fundamental problems in advancing intelligent systems.

이 접근법은 또한 각 도메인에 대한 상당한 컴퓨팅 리소스와 재교육 노력을 요구합니다. 따라서 비전과 언어를 일관된 대화식 경험으로 원활하게 연결할 수 없다는 것은 지능형 시스템을 발전시키는 데있어 근본적인 문제 중 하나입니다.

In recent attempts to bridge this gap, researchers have combined architectures with fixed visual encoders and separate decoders that function through diffusion-based techniques. Tools such as TokenFlow and Janus integrate token-based language models with image generation backends, typically emphasizing pixel accuracy over semantic depth. While these approaches can produce visually rich content, they often miss the contextual nuances of user input.

최근 이러한 격차를 해소하려는 시도에서 연구원들은 건축을 고정 시각 인코더와 확산 기반 기술을 통해 기능하는 별도의 디코더와 결합했습니다. Tokenflow 및 Janus와 같은 도구는 토큰 기반 언어 모델을 이미지 생성 백엔드와 통합하여 일반적으로 시맨틱 깊이에 대한 픽셀 정확도를 강조합니다. 이러한 접근 방식은 시각적으로 풍부한 컨텐츠를 생성 할 수 있지만 종종 사용자 입력의 상황에 맞는 뉘앙스를 놓치게됩니다.

Others, like GPT-4o, have moved toward native image generation capabilities but still operate with limitations in deeply integrated understanding. The friction lies in translating abstract text prompts into meaningful and context-aware visuals in a fluid interaction without splitting the pipeline into disjointed parts.

GPT-4O와 같은 다른 사람들은 기본 이미지 생성 기능으로 이동했지만 여전히 통합 된 이해의 한계로 작동합니다. 마찰은 추상 텍스트 프롬프트를 파이프 라인을 분리 된 부품으로 나누지 않고 유동적 인 상호 작용에서 의미 있고 맥락 인식 시각으로 번역하는 데 있습니다.

Now, researchers from Inclusion AI, Ant Group have presented Ming-Lite-Uni, an open-source framework designed to unify text and vision through an autoregressive multimodal structure. The system features a native autoregressive model built on top of a fixed large language model and a fine-tuned diffusion image generator. This design is based on two core frameworks: MetaQueries and M2-omni.

이제 ANT Group의 포함 AI의 연구원들은 자동 회귀적인 멀티 모달 구조를 통해 텍스트와 비전을 통합하도록 설계된 오픈 소스 프레임 워크 인 Ming-Lite-Uni를 제시했습니다. 이 시스템에는 고정 된 큰 언어 모델과 미세 조정 된 확산 이미지 생성기 위에 구축 된 기본 자동 회귀 모델이 있습니다. 이 디자인은 메타 쿼리와 M2-Omni의 두 가지 핵심 프레임 워크를 기반으로합니다.

Ming-Lite-Uni introduces an innovative component of multi-scale learnable tokens, which act as interpretable visual units, and a corresponding multi-scale alignment strategy to maintain coherence between various image scales. The researchers have provided all the model weights and implementation openly to support community research, positioning Ming-Lite-Uni as a prototype moving toward general artificial intelligence.

Ming-Lite-Uni는 해석 가능한 시각적 단위로 작용하는 다중 규모 학습 가능한 토큰의 혁신적인 구성 요소와 다양한 이미지 척도 간의 일관성을 유지하기위한 해당 다중 규모 정렬 전략을 소개합니다. 연구원들은 커뮤니티 연구를 지원하기 위해 모든 모델 가중치와 구현을 공개적으로 제공하여 Ming-Lite-Uni를 일반 인공 지능으로 이동하는 프로토 타입으로 배치했습니다.

The core mechanism behind the model involves compressing visual inputs into structured token sequences across multiple scales, such as 4×4, 8×8, and 16×16 image patches, each representing different levels of detail, from layout to textures. These tokens are processed alongside text tokens using a large autoregressive transformer. Each resolution level is marked with unique start and end tokens and assigned custom positional encodings.

모델 뒤에있는 핵심 메커니즘은 4 × 4, 8 × 8 및 16 × 16 이미지 패치와 같은 여러 스케일에 걸쳐 구조화 된 토큰 시퀀스로 시각적 입력을 압축하는데, 각각은 레이아웃에서 텍스처에 이르기까지 다른 수준의 세부 사항을 나타냅니다. 이 토큰은 대형 자동 회귀 변압기를 사용하여 텍스트 토큰과 함께 처리됩니다. 각 해상도 레벨에는 고유 한 시작 및 엔드 토큰 및 지정된 사용자 정의 위치 인코딩이 표시됩니다.

The model employs a multi-scale representation alignment strategy that aligns intermediate and output features through a mean squared error loss, ensuring consistency across layers. This technique boosts image reconstruction quality by over 2 dB in PSNR and improves generation evaluation (GenEval) scores by 1.5%.

이 모델은 평균 제곱 오류 손실을 통해 중간 및 출력 기능을 정렬하는 다중 규모 표현 정렬 전략을 사용하여 계층 간의 일관성을 보장합니다. 이 기술은 PSNR에서 이미지 재건 품질을 2dB 이상으로 향상시키고 생성 평가 (Geneval) 점수를 1.5%향상시킵니다.

Unlike other systems that retrain all components, Ming-Lite-Uni keeps the language model frozen and only fine-tunes the image generator, allowing faster updates and more efficient scaling. The system was tested on various multimodal tasks, including text-to-image generation, style transfer, and detailed image editing using instructions like “make the sheep wear tiny sunglasses” or “remove two of the flowers in the image.”

모든 구성 요소를 재교육하는 다른 시스템과 달리 Ming-Lite-Uni는 언어 모델을 동결시키고 이미지 생성기를 미세 조정하여 더 빠른 업데이트와보다 효율적인 스케일링을 허용합니다. 이 시스템은 텍스트-이미지 생성, 스타일 전송 및“양이 작은 선글라스를 착용하도록”또는“이미지에서 꽃을 제거”하는 것과 같은 지침을 사용하여 다양한 멀티 모드 작업에서 테스트되었습니다.

The model handled these tasks with high fidelity and contextual fluency. It maintained strong visual quality even when given abstract or stylistic prompts such as “Hayao Miyazaki’s style” or “Adorable 3D.”

이 모델은 이러한 작업을 높은 충실도와 상황에 맞는 유창성으로 처리했습니다. “하야오 미야자키의 스타일”또는“사랑스러운 3D”와 같은 추상적 또는 문체 프롬프트가 주어 지더라도 강력한 시각적 품질을 유지했습니다.

The training set spanned over 2.25 billion samples, combining LAION-5B (1.55B), COYO (62M), and Zero (151M), supplemented with filtered samples from Midjourney (5.4M), Wukong (35M), and other web sources (441M). Furthermore, it incorporated fine-grained datasets for aesthetic assessment, including AVA (255K samples), TAD66K (66K), AesMMIT (21.9K), and APDD (10K), which enhanced the model’s ability to generate visually appealing outputs according to human aesthetic standards.

훈련 세트는 Midjourney (5.4m), Wukong (35m) 및 기타 웹 소스 (441m)의 필터링 된 샘플을 보충 한 Laion-5B (1.55b), Coyo (62m) 및 Zero (151m)를 결합한 225 억 개가 넘는 샘플에 걸쳐있었습니다. 또한 AVA (255K 샘플), TAD66K (66K), AESMMIT (21.9K) 및 APDD (10K)를 포함한 미적 평가를위한 세밀한 데이터 세트를 통합하여 인간의 미학적 표준에 따라 시각적으로 매력적인 출력을 생성하는 모델의 능력을 향상시켰다.

The model combines semantic robustness with high-resolution image generation in a single pass. It achieves this by aligning image and text representations at the token level across scales, rather than depending on a fixed encoder-decoder split. The approach allows autoregressive models to carry out complex editing tasks with contextual guidance, which was previously hard to achieve. FlowMatching loss and scale-specific boundary markers support better interaction between the transformer and the diffusion layers.

이 모델은 시맨틱 견고성과 단일 패스에서 고해상도 이미지 생성을 결합합니다. 고정 인코더 디코더 분할에 의존하기보다는 스케일의 토큰 레벨에서 이미지 및 텍스트 표현을 정렬하여이를 달성합니다. 이 접근법은 자동 회귀 모델이 상황에 맞는 안내를 통해 복잡한 편집 작업을 수행 할 수있게 해주었다. 유량 매출 손실 및 스케일-특이 적 경계 마커는 변압기와 확산 층 간의 더 나은 상호 작용을 지원합니다.

Overall, the model strikes a rare balance between language comprehension and visual output, positioning it as a significant step toward practical multimodal AI systems.

전반적 으로이 모델은 언어 이해와 시각적 출력 사이의 드문 균형을 유지하여 실제 멀티 모달 AI 시스템을 향한 중요한 단계로 배치합니다.

Several Key Takeaways from the Research on Ming-Lite_Uni:

Ming-lite_uni에 대한 연구에서 얻은 몇 가지 주요 테이크 아웃 :

부인 성명:info@kdj.com

제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!

본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.

2025年05月10日 에 게재된 다른 기사