$113653.179192 USD

-1.98%

ethereum

$3525.217143 USD

-5.13%

xrp

$2.974588 USD

-1.43%

tether

$0.999613 USD

-0.03%

bnb

$764.503086 USD

-3.02%

solana

$164.558033 USD

-4.03%

usd-coin

$0.999804 USD

-0.02%

tron

$0.326608 USD

-0.14%

dogecoin

$0.201896 USD

-3.61%

cardano

$0.722456 USD

-2.12%

hyperliquid

$38.099997 USD

-7.92%

sui

$3.494024 USD

-3.45%

stellar

$0.385959 USD

-3.14%

chainlink

$16.209093 USD

-4.30%

bitcoin-cash

$540.811075 USD

-4.11%

Articles d’actualité sur les crypto-monnaies

Qwen2.5-Turbo : le nouveau modèle de langage d'IA d'Alibaba peut traiter dix romans complets

Nov 21, 2024 at 11:47 pm

Le laboratoire d'IA d'Alibaba a introduit une nouvelle version de son modèle de langage Qwen capable de traiter jusqu'à un million de jetons de texte, soit l'équivalent d'une dizaine de romans.

Alibaba's AI lab has unveiled a new iteration of its Qwen language model, capable of processing an astonishing one million tokens of text—roughly ten novels' worth. Moreover, the team managed to quadruple the processing speed.

Le laboratoire d'IA d'Alibaba a dévoilé une nouvelle itération de son modèle de langage Qwen, capable de traiter un nombre étonnant d'un million de jetons de texte, soit l'équivalent d'environ dix romans. De plus, l’équipe a réussi à quadrupler la vitesse de traitement.

Qwen has now expanded the context length of its Qwen2.5 language model, introduced in September, from 128,000 to 1 million tokens. This enables Qwen2.5-Turbo to handle ten complete novels, 150 hours of transcripts, or 30,000 lines of code.

Qwen a désormais étendu la longueur du contexte de son modèle de langage Qwen2.5, introduit en septembre, de 128 000 à 1 million de jetons. Cela permet à Qwen2.5-Turbo de gérer dix romans complets, 150 heures de transcriptions ou 30 000 lignes de code.

Perfect accuracy in retrieving numbers

Précision parfaite dans la récupération des chiffres

The model erzielt 100 percent accuracy in the passkey retrieval task, which involves finding hidden numbers within 1 million tokens of irrelevant text, irrespective of the information's position in the document. This seems to partially overcome the "lost in the middle" phenomenon, where language models mainly focus on the beginning and end of a prompt.

Le modèle offre une précision de 100 % dans la tâche de récupération du mot de passe, qui consiste à trouver des numéros cachés dans 1 million de jetons de texte non pertinent, quelle que soit la position des informations dans le document. Cela semble surmonter en partie le phénomène de « perte au milieu », où les modèles de langage se concentrent principalement sur le début et la fin d'une invite.

In several benchmarks for long text comprehension, Qwen2.5-Turbo outperforms competing models like GPT-4 and GLM4-9B-1M, while maintaining performance comparable to GPT-4o-mini with short sequences.

Dans plusieurs tests de compréhension de textes longs, Qwen2.5-Turbo surpasse les modèles concurrents comme GPT-4 et GLM4-9B-1M, tout en conservant des performances comparables à celles de GPT-4o-mini avec des séquences courtes.

A screen recording from Qwen demonstrates the new language model's ability to quickly summarize Cixin Liu's complete "Trisolaris" trilogy, which spans a total of 690,000 tokens. | Video: Qwen

Un enregistrement d'écran de Qwen démontre la capacité du nouveau modèle de langage à résumer rapidement la trilogie complète « Trisolaris » de Cixin Liu, qui s'étend sur un total de 690 000 jetons. | Vidéo : Qwen

Sparse attention speeds up inference by 4.3x

Une attention éparse accélère l’inférence de 4,3x

By employing sparse attention mechanisms, Qwen reduced the time to first token when processing 1 million tokens from 4.9 minutes to 68 seconds, marking a 4.3x speed increase.

En employant des mécanismes d'attention clairsemés, Qwen a réduit le temps nécessaire pour obtenir le premier jeton lors du traitement d'un million de jetons de 4,9 minutes à 68 secondes, ce qui représente une augmentation de vitesse de 4,3 fois.

The cost remains at 0.3 yuan (4 cents) per 1 million tokens. At the same price point, Qwen2.5-Turbo can now process 3.6x as many tokens as GPT-4o-mini.

Le coût reste à 0,3 yuan (4 cents) pour 1 million de jetons. Au même prix, Qwen2.5-Turbo peut désormais traiter 3,6 fois plus de jetons que GPT-4o-mini.

Qwen2.5-Turbo is now accessible via Alibaba Cloud Model Studio's API, as well as through demos on HuggingFace and ModelScope.

Qwen2.5-Turbo est désormais accessible via l'API d'Alibaba Cloud Model Studio, ainsi que via des démos sur HuggingFace et ModelScope.

How DeepMind's Genie AI could reshape robotics by generating interactive worlds from images

Comment Genie AI de DeepMind pourrait remodeler la robotique en générant des mondes interactifs à partir d'images

Qwen notes that the current model may not always perform optimally on tasks involving long sequences in real-world applications.

Qwen note que le modèle actuel ne fonctionne pas toujours de manière optimale sur des tâches impliquant de longues séquences dans des applications du monde réel.

There are still many unsolved challenges, including the model's weaker performance with long sequences and the high inference costs that hinder the deployment of larger models.

De nombreux défis restent encore à résoudre, notamment les performances plus faibles du modèle avec de longues séquences et les coûts d'inférence élevés qui entravent le déploiement de modèles plus grands.

In the future, Qwen aims to further explore human preference alignment for long sequences, optimize inference efficiency to reduce computation time, and bring larger, more capable models with long context to market.

À l’avenir, Qwen vise à explorer davantage l’alignement des préférences humaines pour les longues séquences, à optimiser l’efficacité de l’inférence pour réduire le temps de calcul et à commercialiser des modèles plus grands et plus performants avec un contexte long.

Why bother with large context windows?

Pourquoi s'embêter avec de grandes fenêtres contextuelles ?

The context windows of large language models have been steadily increasing in recent months. A practical standard has now settled between 128,000 (GPT-4o) and 200,000 (Claude 3.5 Sonnet) tokens, although there are outliers like Gemini 1.5 Pro with up to 10 million or Magic AI's LTM-2-mini with 100 million tokens.

Les fenêtres contextuelles des grands modèles de langage n’ont cessé d’augmenter ces derniers mois. Une norme pratique s'est désormais établie entre 128 000 (GPT-4o) et 200 000 (Claude 3.5 Sonnet), bien qu'il existe des valeurs aberrantes comme Gemini 1.5 Pro avec jusqu'à 10 millions ou le LTM-2-mini de Magic AI avec 100 millions de jetons.

While these advancements generally contribute to the usefulness of large language models, studies have consistently questioned the benefit of large context windows in comparison to RAG systems, where additional information is retrieved dynamically from vector databases.

Bien que ces avancées contribuent généralement à l’utilité des grands modèles de langage, les études ont constamment remis en question l’avantage des grandes fenêtres contextuelles par rapport aux systèmes RAG, dans lesquels des informations supplémentaires sont récupérées dynamiquement à partir de bases de données vectorielles.

Source primaire：the-decoder

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Aug 03, 2025

Plus