$114785.940846 USD

1.16%

ethereum

$3573.788526 USD

3.85%

xrp

$3.013711 USD

6.60%

tether

$1.000073 USD

0.03%

bnb

$756.388099 USD

1.68%

solana

$164.326962 USD

2.31%

usd-coin

$0.999715 USD

-0.01%

tron

$0.327508 USD

1.24%

dogecoin

$0.202611 USD

3.35%

cardano

$0.739849 USD

3.73%

hyperliquid

$38.725434 USD

3.02%

stellar

$0.412791 USD

10.10%

sui

$3.499031 USD

2.58%

chainlink

$16.619697 USD

4.60%

bitcoin-cash

$552.204567 USD

4.30%

Articles d’actualité sur les crypto-monnaies

Inscripteur: un cadre pour le choix dynamiquement entre le raisonnement court et long dans les modèles de langues

May 23, 2025 at 01:59 pm

L'efficacité des modèles de langue repose sur leur capacité à simuler la déduction étape par étape de type humain. Cependant, ces séquences de raisonnement sont à forte intensité de ressources et peuvent être inutiles pour des questions simples qui ne nécessitent pas de calcul élaboré. Ce manque de conscience concernant la complexité de la tâche est l'un des principaux défis de ces modèles. Ils ont souvent par défaut un raisonnement détaillé, même pour les requêtes qui pourraient être répondues directement.

Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.

Des chercheurs de l'Université nationale de Singapour ont développé un nouveau cadre appelé Thinkless qui permet à un modèle de langue de décider de manière autonome pour utiliser le raisonnement court ou long, adaptant sa réponse à la complexité de la tâche à accomplir.

The framework, which is built on reinforcement learning, introduces two special control tokens:

Le cadre, qui est construit sur l'apprentissage du renforcement, présente deux jetons de contrôle spéciaux:

* for concise answers and

* Pour des réponses concises et

* for detailed responses.

* Pour des réponses détaillées.

By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.

En incorporant un nouvel algorithme appelé optimisation de politique relative du groupe découplé (DEGRPO), Thinkless sépare la mise au point de la formation entre la sélection du mode de raisonnement et l'amélioration de la précision de la réponse générée.

This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.

Cette conception empêche le modèle de tomber dans un comportement unidimensionnel et permet un raisonnement adaptatif adapté à chaque requête.

The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.

La méthodologie implique deux étapes: la distillation de l'échauffement et l'apprentissage du renforcement. Dans la phase de distillation, Thinkless est formé à l'aide de sorties de deux modèles experts - l'un spécialisé dans les réponses courtes et l'autre dans un raisonnement détaillé. Cette étape aide le modèle à établir un lien ferme entre le jeton de contrôle et le format de raisonnement souhaité.

The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.

L'étape d'apprentissage du renforcement affine ensuite la capacité du modèle à décider quel mode de raisonnement utiliser. Degrpo décompose l'apprentissage en deux objectifs distincts: l'un pour la formation du jeton de contrôle et un autre pour affiner les jetons de réponse.

This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both and tokens receive balanced updates, promoting stable learning across response types.

Cette approche évite les déséquilibres de gradient dans les modèles antérieurs, où les réponses plus longues domineraient le signal d'apprentissage, conduisant à un effondrement de la diversité du raisonnement. Thinkless garantit que les deux et les jetons reçoivent des mises à jour équilibrées, favorisant l'apprentissage stable entre les types de réponse.

When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the token in only 25.88% of cases while achieving 94.59% accuracy. In contrast, conventional reasoning models had to use extended chains of thought much more frequently.

Lorsqu'il est évalué, le réflexion considérable a considérablement réduit le raisonnement long tout en préservant une grande précision. Sur la référence Minerva Algebra, le modèle a utilisé le jeton dans seulement 25,88% des cas tout en atteignant une précision de 94,59%. En revanche, les modèles de raisonnement conventionnel devaient utiliser des chaînes de pensée étendues beaucoup plus fréquemment.

On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized 13.31% of the time, yet still achieved 84.18% accuracy.

Sur l'ensemble de données AIME 2024, Thinkless a atteint un taux de précision de 27,33% avec une utilisation à 100% du mode de raisonnement, montrant qu'il pouvait maintenir les performances lorsque le raisonnement complet était nécessaire. Sur l'ensemble de données GSM8K, il a utilisé 13,31% du temps, mais a quand même atteint une précision de 84,18%.

These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.

Ces résultats reflètent la capacité du modèle à gérer les requêtes simples et complexes avec une profondeur de raisonnement appropriée, réduisant la génération de jetons inutile jusqu'à 90% dans certaines tâches.

This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.

Cette étude, intitulée «Thinkless: Equipping Language Models for Autonomous Profondeur Control in Reashing», est une contribution précieuse au domaine du traitement du langage naturel, présentant une méthode pratique et efficace pour optimiser les modèles de gros langues pour des tâches diverses et complexes.

Source primaire：marktechpost

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Aug 04, 2025

Plus