![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Articles d’actualité sur les crypto-monnaies
Inscripteur: un cadre pour le choix dynamiquement entre le raisonnement court et long dans les modèles de langues
May 23, 2025 at 01:59 pm
L'efficacité des modèles de langue repose sur leur capacité à simuler la déduction étape par étape de type humain. Cependant, ces séquences de raisonnement sont à forte intensité de ressources et peuvent être inutiles pour des questions simples qui ne nécessitent pas de calcul élaboré. Ce manque de conscience concernant la complexité de la tâche est l'un des principaux défis de ces modèles. Ils ont souvent par défaut un raisonnement détaillé, même pour les requêtes qui pourraient être répondues directement.
Researchers from the National University of Singapore have developed a new framework called Thinkless that enables a language model to autonomously decide whether to use short or long-form reasoning, tailoring its response to the complexity of the task at hand.
Des chercheurs de l'Université nationale de Singapour ont développé un nouveau cadre appelé Thinkless qui permet à un modèle de langue de décider de manière autonome pour utiliser le raisonnement court ou long, adaptant sa réponse à la complexité de la tâche à accomplir.
The framework, which is built on reinforcement learning, introduces two special control tokens:
Le cadre, qui est construit sur l'apprentissage du renforcement, présente deux jetons de contrôle spéciaux:
*
* Pour des réponses concises et
*
* Pour des réponses détaillées.
By incorporating a novel algorithm called Decoupled Group Relative Policy Optimization (DeGRPO), Thinkless separates the training focus between selecting the reasoning mode and improving the accuracy of the generated response.
En incorporant un nouvel algorithme appelé optimisation de politique relative du groupe découplé (DEGRPO), Thinkless sépare la mise au point de la formation entre la sélection du mode de raisonnement et l'amélioration de la précision de la réponse générée.
This design prevents the model from falling into one-dimensional behavior and enables adaptive reasoning tailored to each query.
Cette conception empêche le modèle de tomber dans un comportement unidimensionnel et permet un raisonnement adaptatif adapté à chaque requête.
The methodology involves two stages: warm-up distillation and reinforcement learning. In the distillation phase, Thinkless is trained using outputs from two expert models—one specializing in short responses and the other in detailed reasoning. This stage helps the model establish a firm link between the control token and the desired reasoning format.
La méthodologie implique deux étapes: la distillation de l'échauffement et l'apprentissage du renforcement. Dans la phase de distillation, Thinkless est formé à l'aide de sorties de deux modèles experts - l'un spécialisé dans les réponses courtes et l'autre dans un raisonnement détaillé. Cette étape aide le modèle à établir un lien ferme entre le jeton de contrôle et le format de raisonnement souhaité.
The reinforcement learning stage then fine-tunes the model’s ability to decide which reasoning mode to use. DeGRPO decomposes the learning into two separate objectives: one for training the control token and another for refining the response tokens.
L'étape d'apprentissage du renforcement affine ensuite la capacité du modèle à décider quel mode de raisonnement utiliser. Degrpo décompose l'apprentissage en deux objectifs distincts: l'un pour la formation du jeton de contrôle et un autre pour affiner les jetons de réponse.
This approach avoids the gradient imbalances in earlier models, where longer responses would overpower the learning signal, leading to a collapse in reasoning diversity. Thinkless ensures that both
Cette approche évite les déséquilibres de gradient dans les modèles antérieurs, où les réponses plus longues domineraient le signal d'apprentissage, conduisant à un effondrement de la diversité du raisonnement. Thinkless garantit que les deux et les jetons reçoivent des mises à jour équilibrées, favorisant l'apprentissage stable entre les types de réponse.
When evaluated, Thinkless significantly reduced long-form reasoning while preserving high accuracy. On the Minerva Algebra benchmark, the model used the
Lorsqu'il est évalué, le réflexion considérable a considérablement réduit le raisonnement long tout en préservant une grande précision. Sur la référence Minerva Algebra, le modèle a utilisé le jeton dans seulement 25,88% des cas tout en atteignant une précision de 94,59%. En revanche, les modèles de raisonnement conventionnel devaient utiliser des chaînes de pensée étendues beaucoup plus fréquemment.
On the AIME 2024 dataset, Thinkless reached a 27.33% accuracy rate with 100% usage of the reasoning mode, showing that it could maintain performance when full reasoning was necessary. On the GSM8K dataset, it utilized
Sur l'ensemble de données AIME 2024, Thinkless a atteint un taux de précision de 27,33% avec une utilisation à 100% du mode de raisonnement, montrant qu'il pouvait maintenir les performances lorsque le raisonnement complet était nécessaire. Sur l'ensemble de données GSM8K, il a utilisé 13,31% du temps, mais a quand même atteint une précision de 84,18%.
These results reflect the model’s ability to handle simple and complex queries with appropriate reasoning depth, cutting down on unnecessary token generation by as much as 90% in some tasks.
Ces résultats reflètent la capacité du modèle à gérer les requêtes simples et complexes avec une profondeur de raisonnement appropriée, réduisant la génération de jetons inutile jusqu'à 90% dans certaines tâches.
This study, titled "Thinkless: Equipping Language Models for Autonomous Depth Control in Reasoning," is a valuable contribution to the field of natural language processing, presenting a practical and efficient method for optimizing large language models for diverse and complex tasks.
Cette étude, intitulée «Thinkless: Equipping Language Models for Autonomous Profondeur Control in Reashing», est une contribution précieuse au domaine du traitement du langage naturel, présentant une méthode pratique et efficace pour optimiser les modèles de gros langues pour des tâches diverses et complexes.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
-
- U.S. President Donald Trump-backed project, World Liberty Financial (WLF), has opened a snapshot vote to distribute its USD1 stablecoin to eligible $WLFI token holders.
- Jun 07, 2025 at 09:50 pm
- As part of its new proposal World Liberty Financial wants to carry out an onchain airdrop functionality test by distributing minimal quantities of its stablecoin USD1 to $WLFI owners.
-
-
-
-
- OFUYC Launches 'Stablecoin Compliance Audit and Innovation Development Program' Targeting the Reserve Audit Market
- Jun 07, 2025 at 09:40 pm
- The digital currency market is undergoing regulatory consolidation, with stablecoin compliance becoming a key focus. To address global requirements for reserve auditing, transparency, and anti-money laundering (AML), OFUYC has launched the "Stablecoin Compliance Audit and Innovation Development Program".
-
-
-